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PREFACIO 


CONTEXT 

With recent advances in technology, most organizations (businesses institutions, companies, and many others 
such as research institutes and public sector firms) are able to collect large volumes of data with relative ease. In 
light of this technology and data expansion scenario, the role of statistics for data analysis has gained enormous 
importance, and clearly has become a source of competitive advantage. 

A collection of data that is large and often complex is known as Big Data. The typical big data collection 
is characterized by five dimensions related to the generation and availability of data: volume, velocity, variety, 
variability, and complexity. In this context, it is difficult and often impossible to process the data using hand-on 
data management tools, or traditional data processing applications. 

Data processing requires both classical multivariate methods and advanced techniques for modern data analysis. 
This book integrates the two strands into a coherent treatment, drawing together theory, data, computation and 
recent research. 

In many business contexts, data analysis is the first and the only step for problem solution. Acting on the so¬ 
lution and the information as a next critical step, organizations can make good decisions. The goal of this book 
is to emphasize the hierarchy between data, information, and knowledge in this new big data scenario, showing 
how data treatment and analysis can lead to better decision making. 

When the knowledge so obtained were used to decide future courses of action in a business system, a broader 
concept is required, i.e., Business Analytics (BA). This term implies the analysis of very large data sets using 
quantitative methods to uncover the patterns in the data and then taking actions based on this information, and 
resulting in competitive advantages for companies compared to their competitors.The methods in this book are 
essentially what the field of Business Analytics is all about. 

AIMS AND SCOPE 

This book teaches the principles of data analysis for use in academic and organizational environments. The 
approach accentuates the importance of applied modeling for decision making, and the principal statistical 
techniques and multivariate modeling are the result of several years of study and research. 

The Manual de Analise de Dados covers data analysis and multivariate statistical methods, and highlights 
applications to problems associated mostly, but not exclusively, with Business, Management and the Social 
Sciences. Its specific applications to fields such as Marketing, Finance, Accounting, Economics, Actuarial Sciences, 
Engineering, Strategy, Human Resources, Operations Management and Logistics, distinguish it from competing 
titles, and its focused presentation makes it accessible to readers with a variety of backgrounds. 

SOFTWARE 

The use of Big Data in decision making requires professional software, including IBM SPSS Statistics 
Software® and Stata Statistical Software®. With two of the most popular modeling software programs worldwide, 
researchers can develop appropriate and robust models for any situation. The book shows how powerful software 
as SPSS and Stata can be used to create graphical and numerical outputs in a matter of seconds, focusing on 
in-depth interpretation of the results, sensitivity analysis, and alternative modeling approaches. 

The choice of software depends on the aim and field of research. SPSS was originally designed and developed 
for social sciences. SPSS is preferred by non-statisticians as it has a user-friendly interface and drop down menus, 
not requiring the insertion modeling commands. It is used in areas such as Marketing, Human Resources, and 
Strategy. IBM bought SPSS in 2009. 

Stata is popular in areas such as finance, economics, accounting, actuarial and health sciences because of its 
ability to process and analyze extremely large data sets. It is faster and more powerful compared to SPSS and 
other statistical software, because it contains complex models and a collection of advanced statistical procedures, 
which makes a researcher feels more like an expert in using it. It is the least expensive of the statistical software 
packages that entail costs. 
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In short, SPSS focuses on ease of use and it should be suitable for most beginners and some intermediate 
readers, while Stata focuses on power and it should be suitable for intermediate and most advanced users. 

For each chapter, a practical example is presented, which is solved first algebraically and then using Stata 
Statistical Software® and IBM SPSS Statistics Software®. 

WHO SHOULD READ THIS BOOK? 

Depending on the expectations and aims of the reader, different types of backgrounds are needed. A broad 
group of readers may want to focus on applying the methods of this book to a particular dataset, and 
interpreting the results using statistical software, focusing on the generation of information and the improvement 
of knowledge through decision making. These readers should have experience in the analysis of data combined 
with some basic knowledge of statistics, focusing on the basic ideas and properties of each method and leaving 
out the advanced sections of each chapter. They can benefit from the many examples and discussions of the 
analysis for the different data sets.This broad group of readers usually includes undergraduate students in Business 
Administration, Accounting, Actuarial Sciences, Psychology, Medicine and Health, and other fields of knowledge 
related to Human and Biomedical Sciences (in some cases related to Exact Sciences),besides business professionals, 
consultants, executive education courses and MBAs. 

Readers interested in understanding the theoretical ideas (how the chosen method deals with data, what 
its limitations might be and what alternatives are worth considering) should have a good background in statistics 
and mathematics. By reading this book they will be able to understand the principles of each method, what is 
required and which ideas can be adapted. This broad group includes graduate students and could also include 
undergraduate students in Engineering, Mathematics, Statistics and other fields of knowledge related to Exact 
Sciences. 

I believe that the Manual de Analise de Dados is aimed both at researchers who, for different reasons, are 
interested specifically for statistics and multivariate modeling, and those who wish to deepen their knowledge 
through the use of Excel, SPSS, and Stata. 

This book presents theories and uses examples drawn from real data sets obtained from different sources, 
such as the United Nations, International Transparency, Forbes, Gapminder, World Bank, and Compustat Global 
(Wharton). It introduces comprehensive coverage of exploratory techniques and regression models, including 
algebraic resolutions and applications in multidisciplinary settings. 

TEACHING FROM THIS BOOK 

Each chapter of the Manual de Analise de Dados uses the same didactic format, which enhances the learning 
process. Relevant concepts are initially introduced for every statistical or multivariate technique, always 
accompanied by the algebraic resolution of a practical and real example, often in Excel. In sequence, the same 
exercises are solved in Stata Statistical Software® and IBM SPSS Statistics Software®. 

This approach facilitates the study of each technique and the analysis of results. In addition, the practical 
application of modeling in Stata and SPSS also benefits researchers as results may, at any moment, be compared 
to those already estimated or calculated algebraically in the previous sections of each chapter. This format also 
provides readers an opportunity to execute the software. 

At the conclusion of each chapter complementary exercises are provided with answers available at the end 
of the book. The data sets are available on the web, hosted by Elsevier. The book is 1,200 pages long, which is a 
reasonable length for this type of book. 

I am very glad to write this preface, and I express my sincere thanks to Professors Luiz Paulo Favero and 
Patricia Belfiore for their efforts to write this important book. 


Joseph F. Hair, Jr. 

University of South Alabama, Mobile, Alabama, USA 



APRESENTA^AO 


Este livro, em que sao abordadas as principais tecnicas estatisticas e de modelagem multivariada, e re- 
sultado de varios anos de estudo e pesquisa e enfatiza a importancia da analise de dados em ambientes acade- 
micos e organizacionais, podendo ser considerado o principal fruto de inumeras discussoes e elucubra^oes sobre 
a importancia da modelagem aplicada voltada a tomada de decisao. 

Neste novo milenio, no que diz respeito a gera^ao e disponibilidade de dados, a humanidade tern presenciado 
e aprendido a conviver com a ocorrencia simultanea de cinco caracteristicas, ou dimensoes: volume, velocida- 
de, variedade, variabilidade e complexidade dos dados. 

O volume exacerbado de dados e oriundo, entre outras razoes, do aumento da capacidade computacional, 
do incremento do monitoramento dos fenomenos e do proprio surgimento das midias sociais. A velocidade 
com que dados passam a ser disponibilizados para tratamento e analise, em razao de novas formas de coleta que 
utilizam etiquetas eletronicas e sistemas de antena de radiofrequencia, tambem e visivel e vital para os processos 
de tomada de decisao em ambientes cada vez mais competitivos. A variedade refere-se aos diferentes forma- 
tos em que sao acessados os dados, como textos, indicadores, bases secundarias ou ate mesmo discursos, e uma 
analise convergente pode tambem propiciar melhor processo decisorio. A variabilidade dos dados relaciona-se, 
para alem das tres dimensoes anteriores, com fenomenos ciclicos ou sazonais, por vezes em alta frequencia, dire- 
tamente observaveis ou nao e que determinado tratamento pode gerar informa^oes diferenciadas ao pesquisador. 
Por fim, mas nao menos relevante, a complexidade dos dados, principalmente para grandes volumes, reside no 
fato de que muitas fontes podem ser acessadas, com codigos, periodicidades ou criterios distintos, o que faz com 
que seja exigido do pesquisador um processo de controle gerencial sobre os dados para fins de analise integrada 
e tomada de decisao. 

Conforme mostra a Figura A.l, a combina^ao dessas cinco dimensoes de gera^ao e disponibilidade de dados 
recebe o nome de Big Data , termo tao frequente atualmente em ambientes academicos e organizacionais. 



Figura A.l Dimensoes da gera^ao e disponibilidade de dados e o Big Data. 


Essas cinco dimensoes que definem o Big Data nao podem ser suportadas sem que sejam acompanhadas do 
aprimoramento de softwares profissionais, entre os quais o IBM SPSS Statistics Software® e o Stata Statistical 
Software®, que, alem de oferecerem uma enorme capacidade de processamento de bases de dados, sao capazes 
de elaborar os mais diversos testes e modelos apropriados e robustos a cada situa^ao e de acordo com o que o 
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pesquisador e o tomador de decisao desejam.E essas sao as principals razdes que tem levado organiza^oes atuantes 
nos mais diversos setores a investirem na estrutura^ao e no desenvolvimento de areas multidisciplinares conheci- 
das por Business Analytics, que possuem o objetivo principal de analisar dados e gerar informa^oes, permitindo a 
cria^ao de uma capacidade preditiva em tempo real da organiza^ao frente ao mercado e aos competidores. 

No ambiente academico, obviamente, nao pode ser diferente. O aprimoramento das tecnicas de pesquisa e 
do manuseio de softwares modernos, aliado a compreensao, por parte de pesquisadores das mais diversas areas de 
estudo, sobre a importancia da estatistica e da modelagem de dados para a defini^ao de objetivos e para a funda- 
menta^ao de hipoteses de pesquisa alicer^adas em teorias subjacentes, tem gerado trabalhos mais consistentes e 
rigorosos do ponto de vista metodologico e cientifico. 

Entretanto, conforme costumava afirmar o celebre filosofo austriaco, naturalizado britanico, Ludwig Joseph 
Johann Wittgenstein, apenas o rigor metodologico e a existencia de autores que pesquisam mais do mesmo 
assunto podem gerar uma profunda falta de oxigenio no mundo academico. Alem da disponibilidade de dados, 
de softwares apropriados e de uma adequada teoria subjacente, e de fundamental importancia que o pesqui¬ 
sador tambem fa$a uso de sua intu^ao e experiencia na defini^ao dos objetivos e constru^ao das hipoteses, 
inclusive no que diz respeito a decisao de estudar o comportamento de novas e, por vezes, inimaginaveis va¬ 
riaveis em seus modelos. Isso, acreditem, tambem podera gerar informa^oes interessantes e inovadoras para a 
tomada de decisao! 

O principio basico do livro consiste em explicitar, a todo instante, a hierarquia entre dados, informa9ao e 
conhecimento neste novo cenario em que vivemos. Os dados, quando tratados e analisados, transformam-se 
em informa^oes. Ja o conhecimento e gerado no momento em que tais informa^oes sao reconhecidas e aplicadas 
na tomada de decisao. Analogamente, a hierarquia reversa tambem pode ser aplicada, visto que o conhecimento, 
quando difundido ou explicitado, torna-se uma informa^ao que, quando desmembrada, tem capacidade para ge¬ 
rar um conjunto de dados. A Figura A.2 apresenta esta logica. 



Conhecimento Conhecimento 

Figura A.2 Hierarquia entre dados, informagao e conhecimento. 

O livro esta estruturado em tres grandes partes, da seguinte forma: 


PARTE I: ESTATISTICA APLICADA 

Parte 1.1 Introdu^ao 

Capitulo 1 Tipos de Variaveis e Escalas de Mensura^ao e Precisao 

Parte 1.2 Estatistica Descritiva 

Capitulo 2 Estatistica Descritiva Univariada 
Capitulo 3 Estatistica Descritiva Bivariada 

Parte 1.3 Estatistica Probabilfstica 

Capitulo 4 lntrodu$ao a Probabilidade 

Capitulo 5 Variaveis Aleatorias e Distributes de Probabilidade 
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Parte 1.4 Estati'stica Inferential 

Capftulo 6 Amostragem 
Capftulo 7 Testes de Hipoteses 
Capftulo 8 Testes Nao Parametricos 

PARTE II: TECNICAS MULTI VARI ADAS EXPLORAT6RI AS 

Capftulo 9 Analise de Agrupamentos 

Capftulo 10 Analise Fatorial por Componentes Principals 

Capftulo 11 Analise de Correspondence Simples e Multipla 

PARTE III: TiCNICAS MULTI VARI ADAS CONFIRMATORY: MODELOS DE REGRESSAO 

Parte III.1 Modelos Lineares Generalizados 

Capftulo 12 Modelos de Regressao Simples e Multipla 

Capftulo 13 Modelos de Regressao Logfstica Binaria e Multinomial 

Capftulo 14 Modelos de Regressao para Dados de Contagem: Poisson e Binomial Negativo 

Parte 111.2 Modelos de Regressao para Dados em Painel 

Capftulo 15 Modelos Longitudinals de Regressao para Dados em Painel 
Capftulo 16 Modelos Multinfvel de Regressao para Dados em Painel 

Parte 111.3 Outros Modelos de Regressao 

Capftulo 17 Modelos de Regressao para Dados de Sobreviv&ncia: Riscos Proporcionais de Cox 
Capftulo 18 Modelos de Regressao com Multiplas Variaveis Dependentes: Correla^ao Canonica 


Cada capitulo esta estruturado dentro de uma mesma logica didatica de apresentagao, o que, acreditamos* fa- 
vorece o aprendizado. Inicialmente, sao introduzidos os conceitos pertinentes a cada tecnica estatistica ou mul- 
tivariada, sempre acompanhados da resolugao algebrica, muitas vezes em Excel, de exercicios praticos a partir de 
bases de dados elaboradas prioritariamente com foco didatico. Na sequencia, os mesmos exercicios sao resolvidos 
nos pacotes estatisticos Stata Statistical Software® e IBM SPSS Statistics Software®. 

Acreditamos que essa logica facilita o estudo e o entendimento sobre a utiliza^ao correta de cada uma das 
tecnicas e sobre a analise dos resultados. Alem disso, a aplica^ao pratica das modelagens em Stata e SPSS tambem 
traz beneficios ao pesquisador, a medida que os resultados podem, a todo instante, ser comparados com aqueles 
ja estimados ou calculados algebricamente nas se^oes anteriores de cada capitulo, alem de propiciar uma oportu- 
nidade de manuseio desses importantes softwares. 

Enquanto os exercicios dos capitulos das Partes I e II sao resolvidos inicialmente em SPSS e, na sequencia, 
em Stata, os exercicios dos capitulos da Parte III sao resolvidos e apresentados em ordem inversa, visto que, assim, 
podemos aproveitar ao maximo as qualidades de cada software. Ao final de cada capitulo, sao propostos exercicios 
complementares, cujas respostas, apresentadas por meio de outputs gerados em SPSS (Partes I e II) e Stata (Parte 
III), estao disponibilizadas ao final do livro. As bases de dados utilizadas estao disponibilizadas em www.elsevier. 
com.br . 

O usufruto de todos os beneficios e potencialidades das tecnicas estatisticas e multivariadas sera sentido pe- 
lo pesquisador na medida em que seus procedimentos sejam cada vez mais exercitados. Como existem diversos 
metodos, deve-se ter cautela na definigao da tecnica, visto que a escolha das alternativas mais adequadas para o 
tratamento dos dados depende fundamentalmente deste tempo de pratica e exercicio. 

A utilizagao adequada das tecnicas apresentadas no livro por professores, estudantes e executivos pode emba- 
sar mais fortemente a percep^ao inicial de pesquisa, o que oferece suporte a tomada de decisao. O processo de 
gera^ao de conhecimento de um fenomeno depende de um piano de pesquisa bem estruturado, com a de- 
fini^ao das variaveis a serem levantadas, do dimensionamento da amostra, do processo de forma^ao do banco de 
dados e da importante escolha da tecnica a ser utilizada. 
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Dessa maneira, acreditamos que o livro seja voltado tanto para pesquisadores que, por diferentes razoes, se in- 
teressem especificamente por estatistica e modelagem multivariada, quanto para aqueles que desejarem aprofun- 
dar seus conhecimentos por meio da utiliza^ao dos softwares Excel, SPSS e Stata. 

Este livro e recomendado a alunos de gradua^ao e pos-gradua^ao stricto sensu em Administrate, Engenharia, 
Economia, Contabilidade, Atuaria, Estatistica, Psicologia, Medicina e Saude e demais campos do conhecimento 
relacionados com as Ciencias Humanas, Exatas e Biomedicas. E destinado tambem a alunos de cursos de exten- 
sao, de pos-gradua^ao lato sensu e de MBAs, assim como a profissionais de empresas, consultores e demais pesqui¬ 
sadores que tern, como principais objetivos, o tratamento e a analise de dados com vistas a elabora^ao de modela- 
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ESTATISTICA APLICADA 


A origem da estatistica remonta a tempos antigos, em que varios povos ja coletavam e registravam dados cen- 
sitarios para eventual tomada de decisao.Tambem eram realizadas estimativas das riquezas individuals e familiares, 
e calculos de arrecada^ao de impostos eram feitos com base nas informa^oes obtidas. A propria Biblia traz infor- 
ma^oes estatisticas sobre a evolu^ao ou involu^ao territorial de diversos povos. 

A palavra estatistica vem de status, que significa Estado em latim. O termo era utilizado para descrever e 
designar um conjunto de dados relativos aos Estados, tornando a estatistica um meio de administragao para os 
governantes com a finalidade de controle fiscal e seguran^a nacional. No seculo XIX, ela come^ou a ganhar im¬ 
portance em outras areas do conhecimento humano.Ja a partir do seculo XX,passou a ser utilizada, nas grandes 
empresas e organiza^oes, com o enfoque da qualidade total, tornando-se um atributo de diferencial competitivo. 
Nesse contexto, a estatistica desenvolveu-se, ao longo dos seculos, alicer^ada em conjuntos de metodos e proces¬ 
ses destinados a estudar e medir os fenomenos coletivos. 

Neste sentido, a estatistica pode ser definida como a ciencia que tem por objetivo a coleta, analise 
e interpreta^ao de dados qualitativos e quantitativos. Ou ainda, como um conjunto de metodos para 
coleta, organiza 9 ao, resumo, analise e interpreta 9 ao de dados para tomada de decisoes. 

Sua evolu^ao deve-se aos avan90S computacionais, tornando-se mais acessivel aos seus usuarios e permitindo 
aplica^oes cada vez mais sofisticadas em diferentes areas do conhecimento. A disponibilidade de um conjunto 
completo de ferramentas estatisticas (incluindo estatisticas descritivas, testes de hipoteses, intervalos de confian9a, 
planejamento de experimentos, ferramentas da qualidade, calculos de confiabilidade e sobrevivencia, etc.), a cria- 
$ao de graficos complexos, a elabora^ao de modelos de previsao ou a determinate de como um conjunto de 
variaveis se comporta, na altera^ao de uma ou mais variaveis presentes em outro conjunto, sao mecanismos atu- 
almente possiveis gramas ao desenvolvimento de softwares estatisticos como o SPSS e o Stata, entre tantos outros, 
e seriam inimaginaveis sem a existencia deles. 

A estatistica esta dividida em tres grandes partes: estatistica descritiva ou dedutiva, estatistica probabi- 
listica e estatistica inferencial ou indutiva, conforme mostra a Figura I.l.Alguns autores,porem, consideram 
a estatistica probabilistic a como parte da estatistica inferencial. 



Figura 1.1 Areas da estatistica. 
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Optamos, com base em razoes didaticas e conceituais, por abordar, na Parte 1, as principals areas da estatistica, 
ficando os capitulos estruturados em quatro subpartes distintas, a saber: 

PARTE 1.1: INTRODU^AO 

Capitulo 1 :Tipos de Variaveis e Escalas de Mensuragao e Precisao 

PARTE 1.2: ESTATISTICA DESCRITIVA 

Capitulo 2: Estatistica Descritiva Univariada 
Capitulo 3: Estatistica Descritiva Bivariada 

PARTE 1.3: ESTATfSTICA PROBABILfSTICA 

Capitulo 4: Introdugao a Probabilidade 

Capitulo 5: Variaveis Aleatorias e Distribuigoes de Probabilidade 

PARTE 1.4: ESTATISTICA INFERENCIAL 
Capitulo 6: Amostragem 
Capitulo 7: Testes de Hipoteses 
Capitulo 8: Testes Nao Parametricos 

A Figura 1.2 mostra como as areas da estatistica se inter-relacionam. 



Figura 1.2 inter-relagao entre as areas da estatistica. 


Dentre os elementos basicos da estatistica, podemos citar populagrao (ou universo), amostra, censo, varia- 
vel, dados e parametros. As definigoes de cada termo estao a seguir. 
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Popula^ao ou Universo 

Conjunto que contem todos os individuos, objetos ou elementos a serem estudados, que apresentam uma ou 
mais caracteristicas em comum. Por exemplo, podemos citar o conjunto de idades de todos os alunos do Colegio 
Sao Pedro, o conjunto de rendas de todos os habitantes de Curitiba, o conjunto de pesos de todas as crian^as 
nascidas em Goiania, etc. 

Amostra 

Subconjunto extraido da popula^ao para analise, devendo ser representativo daquele grupo. A partir das in- 
forma^oes colhidas na amostra, os resultados obtidos poderao ser utilizados para generalizar, inferir ou tirar con- 
clusoes acerca dessa popula^ao (inferencia estatistica). 

O processo de escolha de uma amostra da popula^ao e denominado amostragem. 

Como exemplo, podemos citar o caso em que a popula^ao e representada por todos os eleitores brasileiros e 
a amostra e extraida de municipios representativos, onde os eleitores sao escolhidos de acordo com a proporcio- 
nalidade de genero, idade, grau de instru^ao e classe social. 

Censo 

Censo, ou recenseamento, e o estudo dos dados relativos a todos os elementos da popula^ao. A Organiza^ao 
das Na^oes Unidas (ONU) define censo como o conjunto das operates que consiste em recolher, agru- 
par e publicar dados demograficos, economicos e sociais relativos a determinado momento ou em 
certos perfodos, a todos os habitantes de um pais ou territorio. 

Um censo pode custar muito caro e demandar um tempo consideravel, de forma que um estudo consideran- 
do parte dessa popula^ao pode ser uma alternativa mais simples, rapida e menos custosa. 

Como exemplos, podemos citar o estudo do grau de escolaridade de todos os habitantes brasileiros, o estudo 
sobre a renda e saude dos aposentados brasileiros, a pesquisa de emprego e desemprego da popula^ao ativa de 
Sao Paulo, etc. 

Variavel 

E uma caracteristica ou atributo que se deseja observar, medir ou contar, a fim de se obter algum tipo de con- 
clusao. Como exemplos, podemos citar o setor de atua^ao, o faturamento ou a quantidade de funcionarios de 
empresas listadas na Bolsa deValores de Sao Paulo. 

Dados 

Os dados podem ser considerados a materia-prima de qualquer analise estatistica e de qualquer modelagem 
exploratoria ou confirmatoria.A partir deles, podem ser obtidas informa^oes de interesse correspondentes a uma 
ou mais variaveis. 

Para metro 

Medidas estatisticas numericas que precisam ser estimadas a partir de criterios ou metodos definidos pelo pes- 
quisador para representar determinadas caracteristicas da popula^ao geralmente desconhecidas. 


Cada capitulo da Parte I esta estruturado dentro de uma mesma logica de apresenta^ao. Inicialmente, sao in- 
troduzidos os conceitos, sempre com o uso de bases de dados que possibilitam, em um primeiro momento, a re- 
solu^ao algebrica de exercicios praticos. Na sequencia, os mesmos exercicios sao resolvidos nos pacotes estatisti- 
cos IBM SPSS Statistics Software® e Stata Statistical Software®. Acreditamos que essa logica facilita o estudo e o 
entendimento sobre a utiliza^ao correta de cada conceito. Alem disso, a aplica^ao pratica das tecnicas em SPSS e 
Stata tambem traz beneficios ao pesquisador, a medida que os resultados podem, a todo instante, ser comparados 
com aqueles ja calculados algebricamente nas se^oes anteriores de cada capitulo, alem de propiciar a oportunidade 
de manuseio desses importantes softwares. Ao final de cada capitulo, sao propostos exercicios complementares, 
cujas respostas, apresentadas por meio de outputs gerados em SPSS, sao disponibilizadas ao final do livro. 





INTRODUgAO 







Tipos de Variaveis e Escalas de 
Mensura^ao e Precisao 


Entao disse Deus; TT,i,0ehe fez-se o Universo. 

Leonhard Euler 


Ao final deste capftulo, voce sera capaz de: 

• Compreender a importancia da definigao das escalas de mensuragao das variaveis para a elaboragao de 
pesquisas e para o tratamento e analise de dados. 

• Estabelecer diferenqas entre as variaveis metricas ou quantitativas e variaveis nao metricas ou qualitativas. 

• Identificar as circunstancias em que cada tipo de variavel deve ser utilizado, em fun^ao dos objetivos de 
pesquisa. 

• Utilizar o tratamento estatistico adequado para cada tipo de variavel. 


1.1. INTRODUgAO 

Variavel e uma caracteristica da popula^ao (ou amostra) em estudo, possivel de ser medida, contada ou cate- 
gorizada. 

O tipo de variavel coletada e crucial no calculo de estatisticas descritivas e na representa^ao grafica de resul- 
tados, bem como na escolha de metodos estatisticos a serem utilizados para analisar os dados. 

Segundo Freund (2006), os dados estatisticos constituem a materia-prima das pesquisas estatisticas, surgindo 
sempre em casos de mensura^oes ou registro de observa^oes. 

Este capitulo descreve os tipos de variaveis existentes (metricas ou quantitativas e nao metricas ou qualita¬ 
tivas), bem como as respectivas escalas de mensura^ao (nominal e ordinal para variaveis qualitativas e intervalar 
e razao para variaveis quantitativas). A classifica^ao dos tipos de variaveis em fun^ao do numero de categorias e 
escalas de precisao tambem e apresentada (binaria e policotomica para variaveis qualitativas e discreta e continua 
para variaveis quantitativas). 

1.2. TIPOS DE VARIAVEIS 

As variaveis podem ser classificadas como nao metricas (tambem conhecidas como qualitativas ou ainda ca- 
tegoricas) ou metricas, tambem conhecidas como quantitativas (Figura 1.1). As variaveis nao metricas ou 
qualitativas representam caracteristicas de um individuo, objeto ou elemento que nao podem ser medidas ou 



Figura 1.1 Tipos de variaveis. 
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quantificadas; as respostas sao dadas em categorias.Ja as variaveis metricas ou quantitativas representam carac- 
teristicas de um individuo, objeto ou elemento resultantes de uma contagem (conjunto finito de valores) ou de 
uma mensura^ao (conjunto infinito de valores). 

1.2.1. Variaveis nao metricas ou quaiitativas 

Conforme sera visto no Capitulo 2, a representa^ao das caracteristicas da variavel nao metrica ou qualitativa 
pode ser feita por meio de tabelas de distribui^ao de frequencias ou de forma grafica, sem o calculo de medidas 
de posi^ao, dispersao e de formato. A unica exce^ao e em rela^ao a moda, medida que fornece o valor mais fre- 
quente de uma variavel, podendo tambem ser aplicada para variaveis nao metricas. 

Imagine que um questionario sera aplicado para levantar dados da renda familiar de uma amostra de consu- 
midores, com base em determinadas faixas salariais. ATabela 1.1 apresenta as categorias das variaveis. 


Tabela 1.1 Faixas de renda familiar x classe social. 


Classe 

Salarios Mmirnos (SM) 

Renda Familiar (R$) 

A 

Acima de 20 SM 

Acima de R$ 15.760,00 

B 

10 a 20 SM 

De R$> 7.880,00 a R$ 15.760,00 

C 

4 a 10 SM 

De RJ> 3.152,00 a R$ 7.880,00 

D 

2 a 4 SM 

De R$> 1.576,00 a R$ 3.152,00 

E 

Ate 2 SM 

Ate RJ> 1.576,00 


Observe que ambas as variaveis sao quaiitativas, ja que os dados sao representados por faixas. Porem, e muito 
comum a classifica^ao incorreta por parte dos pesquisadores quando a variavel apresenta valores numericos nos 
dados. Nesse caso, e possivel apenas o calculo de frequencias, e nao de medidas-resumo, como media e desvio- 
-padrao. 

As frequencias obtidas para cada faixa de renda sao apresentadas na Tabela 1.2. 


Tabela 1.2 Frequencias x faixas de renda familiar. 


Frequencias 

Renda Familiar (R$) 

10% 

Acima de R$ 15.760,00 

18% 

De R$ 7.880,00 a R$ 15.760,00 

24% 

De R$ 3.152,00 a R$ 7.880,00 

36% 

De R$ 1.576,00 a R$ 3.152,00 

12% 

Ate R$> 1.576,00 


Um erro comum encontrado em trabalhos que utilizam variaveis quaiitativas representadas por numeros e o 
calculo da media da amostra, ou de qualquer outra medida-resumo. O pesquisador calcula, inicialmente, a media 
dos limites de cada faixa, supondo que esse valor corresponde a media real dos consumidores situados naquela 
faixa; mas como a distribui^ao dos dados nao e necessariamente linear ou simetrica em torno da media, essa hi- 
potese e muitas vezes violada. 

Para que haja condi^oes de se calcular medidas-resumo, como media e desvio-padrao, a variavel em estudo 
deve ser, necessariamente, quantitativa. 

1.2.2. Variaveis metricas ou quantitativas 

As variaveis quantitativas podem ser representadas de forma grafica (grafico de linhas, dispersao, histograma, 
ramo-e-folhas e boxplot), por meio de medidas de posi^ao ou localiza^ao (media, mediana, moda, quartis, decis e 
percentis), medidas de dispersao ou variabilidade (amplitude, desvio-medio, variancia, desvio-padrao, erro-padrao 
e coeficiente de varia^ao) ou ainda por meio das medidas de forma como assimetria e curtose, conforme sera 
estudado no Capitulo 2. 
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Estas variaveis podem ser discretas ou continuas. As variaveis discretas podem assumir um conjunto finito ou 
enumeravel de valores que sao provenientes, frequentemente, de uma contagem, por exemplo, o numero de filhos 
(0,1,2,...).Ja as variaveis continuas assumem valores pertencentes a um intervalo de numeros reais, por exemplo, 
peso ou renda de um individuo. 

Imagine um banco de dados com nome, idade, peso e altura de 20 pessoas, como mostra aTabela 1.3. 


Tabela 1 .3 Banco de dados de 20 pessoas. 


Nome 

Idade (anos) 

Peso (kg) 

Altura (m) 

Mariana 

48 

62 

1,60 

Roberta 

41 

56 

1,62 

Luiz 

54 

84 

1,76 

Leonardo 

30 

82 

1,90 

Felipe 

35 

76 

1,85 

Marcelo 

60 

98 

00 

r- 

T- 1 

Melissa 

28 

54 

1,68 

Sandro 

50 

70 

1,72 

Armando 

40 

75 

1,68 

Heloisa 

24 

50 

1,59 

Julia 

44 

65 

1,62 

Paulo 

39 

83 

1,75 

Manoel 

22 

68 

1,78 

Ana Paula 

31 

56 

1,66 

Amelia 

45 

60 

1,64 

Horacio 

62 

88 

1,77 

Pedro 

24 

80 

1,92 

Joao 

28 

75 

1,80 

Marcos 

49 

92 

1,76 

Celso 

54 

66 

1,68 


Os dados estao disponiveis no arquivo VarQuanti.sav. Para classificar as variaveis no software SPSS (Figura 
1.2), vamos clicar no menu Variable View. Repare que a variavel Nome e qualitativa (do tipo string) e medida em 
escala nominal (coluna Measure). Ja as variaveis Idade, Peso e Altura sao quantitativas (do tipo Numeric) e medi- 
das na forma escalar (Scale). As escalas de mensura^ao das variaveis serao estudadas com mais detalhes na se$ao 1.3. 
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Figura 1.2 Classifica^ao das variaveis. 


1.3. TIPOS DE VARIAVEIS x ESCALAS DE MENSURA^AO 

As variaveis ainda podem ser classificadas de acordo com o nivel ou escala de mensura^ao. Mensura^ao e o 
processo de atribuir numeros ou rotulos a objetos, pessoas, estados ou eventos de acordo com as regras especificas 
para representar quantidades ou qualidades dos atributos. Regra e um guia, metodo ou comando que indica ao 
investigador como medir o atributo. Escala e um conjunto de simbolos ou numeros, construido com base em 
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uma regra, e aplica-se a individuos ou a seus comportamentos ou atitudes. A posi^ao de um individuo na escala 
e baseada na posse dele do atributo que a escala deve medir. 

Existem diversas taxonomias encontradas na literatura para classificar as escalas de mensura^ao dos tipos de 
variaveis (Stevens, 1946; Hoaglin et ai , 1983). Utilizaremos a classifica^ao de Stevens em fun^ao de sua simplici- 
dade, de sua grande utiliza^ao, alem do uso de sua nomenclatura em softwares estatisticos. 

Segundo Stevens (1946), as escalas de mensura^ao das variaveis nao metricas, categoricas ou qualitativas po- 
dem ser classificadas como nominal e ordinal, enquanto as variaveis metricas ou quantitativas se classificam em 
escala intervalar e de razao (ou proporcional), como mostra a Figura 1.3. 


f 












Nominal 



Variavel Qualitativa 








Ordinal 












Intervalar 



Variavel Quantitative 

< 







Razao 





V 




J 


Figura 1.3 Tipos de variaveis x Escalas de mensura^ao. 


13.1. Variaveis nao metricas - escala nominal 

A escala nominal classifica as unidades em classes ou categorias em rela^ao a carateristica representada, nao 
estabelecendo qualquer rela^ao de grandeza ou de ordem. E denominada nominal porque as categorias se dife- 
renciam apenas pelo nome. 

Podem ser atribuidos rotulos numericos as categorias das variaveis, porem, operates aritmeticas como adi- 
$ao, subtra^ao, multiplica^ao e divisao sobre esses numeros nao sao admissiveis. A escala nominal permite apenas 
algumas operates aritmeticas mais elementares. Por exemplo, pode-se contar o numero de elementos de cada 
classe ou ainda aplicar testes de hipoteses referentes a distribui^ao das unidades da popula^ao nas classes. Desta 
forma, a maioria das estatisticas usuais, como media e desvio-padrao, nao tern sentido para variaveis qualitativas 
de escala nominal. 

Como exemplos de variaveis nao metricas em escalas nominais, podemos mencionar profissao, religiao, cor, 
estado civil, localiza^ao geografica ou pais de origem. 

Imagine uma variavel nao metrica relativa ao pais de origem de um grupo de 10 grandes empresas multina- 
cionais. Para representar as categorias da variavel Pais de origem, podemos utilizar numeros, atribuindo o valor 1 
para Estados Unidos, 2 para Holanda, 3 para China, 4 para Reino Unido e 5 para Brasil, como mostra a Tabela 
1.4. Nesse caso, os numeros servem apenas como rotulos ou etiquetas para identificar e classificar os objetos. 


Tabela 1.4 Empresas e pais de origem. 


Empresa 

Pafs de origem 

Exxon Mobil 

1 

JP Morgan Chase 

1 

General Electric 

1 

Royal Dutch Shell 

2 

ICBC 

3 

HSBC Holdings 

4 

PetroChina 

3 

Berkshire Hathaway 

1 

Wells Fargo 

1 

Petrobras 

5 
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Esta escala de mensura^ao e conhecida como escala nominal, ou seja, os numeros sao atribuidos aleatoriamen- 
te as categorias dos objetos, sem qualquer tipo de ordena^ao. Para representar o comportamento dos dados de 
natureza nominal, podem-se utilizar estatisticas descritivas como tabelas de distribuigao de frequencias, graficos 
de barras ou setores, ou ainda o calculo da moda (Capitulo 2). 

Neste momento, apresentaremos o processo para cria^ao de rotulos ( labels ) para variaveis qualitativas em esca¬ 
la nominal, por meio do software SPSS ( Statistical Package for the Social Sciences) . A partir dai, poderemos elaborar 
tabelas e graficos de frequencias absolutas e relativas. 

Antes de criarmos o banco de dados, definiremos as caracteristicas das variaveis em estudo no ambiente 
Variable View (visualiza£ao das variaveis). Para isso, clique na respectiva planilha que esta dispomvel na parte 
inferior esquerda do Editor de Dados ou clique duas vezes sobre a coluna var. 

A primeira variavel, denominada Empresa, e do tipo string , isto e, seus dados estao inseridos na forma de ca- 
racteres ou letras. Definiu-se que o numero maximo de caracteres da respectiva variavel e 18. Na coluna Measure, 
define-se a escala de mensura^ao da variavel Empresa, que e nominal. 

A segunda variavel, denominada Pats, e do tipo numerica, ja que seus dados estao inseridos na forma de nu¬ 
meros. Porem, os numeros sao utilizados simplesmente para categorizar ou rotular os objetos, de modo que a 
escala de mensura^ao da respectiva variavel tambem e nominal. 
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Figura 1.4 Defini^ao das caracteristicas das variaveis no ambiente Variable View. 


Para que possamos inserir os dados daTabela 1.4, vamos retornar ao ambiente Data View. As informagoes 
devem ser digitadas como mostra a Figura 1.5 (as colunas representam as variaveis e as linhas representam as ob¬ 
servances ou individuos). 
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1 Empresa Pais 


var 
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Exxon Mobil 

i 


2 

JP Morgan Chase 

i 


3 

General Electric 

i 
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Royal Dutch Shell 

2 


6 

ICBC 

3 


6 

HSBC Holdings 

4 


7 

PetroChina 

3 


8 

Berkshire Hathaway 

1 


9 

Wells Fargo 

1 


io .' 

Petrobras 

5 



Figura 1.5 Inser^ao dos dados daTabela 1.4 no ambiente Data View. 

Como a variavel Pais esta representada na forma de numeros, e necessario que sejam atribuidos rotulos a cada 
categoria da variavel, como mostra aTabela 1.5. 


Tabela 1.5 Categorias atribuidas aos paises. 


Categorias 

Pais 

1 

Estados Unidos 

2 

Holanda 

3 

China 

4 

Reino Unido 

5 

Brasil 
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Para isso, devemos clicar em Data —> Define Variable Properties... e selecionar a variavel Pais, de acordo 
com as Figuras 1.6 e 1.7. 


File Edit View Data Transform Analyze Direct Marketing | 
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Figura 1.6 Crla^ao de rotulos para cada categoria da variavel nominal. 
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Figure 1.7 Sele^ao da variavel nominal Pais. 


Como a escala de mensura^ao nominal da variavel Pais ja foi definida na coluna Measure do ambiente 
Variable View, podemos notar que elaja aparece corretamente na Figura 1.8. A defini^ao dos rotulos ( labels ) de 
cada categoria deve ser elaborada neste momento e tambem pode ser visualizada na mesma figura. 

O banco de dados passa a ser visualizado com os nomes dos rotulos atribuidos, como mostra a Figura 1.9. 
Clicando no icone Laft Value Labels, localizado na barra de ferramentas, e possivel alternar entre os valores nu- 
mericos da variavel nominal ou ordinal e seus respectivos rotulos. 

Com o banco de dados estruturado, e possivel elaborar tabelas e graficos de frequences absolutas e relativas 
por meio do SPSS. 

As estatisticas descritivas para representar o comportamento de uma unica variavel qualitativa e de duas varia- 
veis qualitativas serao estudadas nos Capitulos 2 e 3, respectivamente. 
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Figura 1.8 Definigao dos rotulos da variavel Pais. 
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! Empresa 

Pais var 

1 

Exxon Mobil 

Estados Unidos 

2 

JP Morgan Chase 

Estados Unidos 

3 

General Electnc 
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China 
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China 
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9 
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Estados Unidos 

10 

Petrobras 

Brasil 


Figura 1.9 Banco de dados com rotulos. 


13.2. Variaveis nao metricas - escala ordinal 

Uma variavel nao metrica em escala ordinal classifica as unidades em classes ou categorias em relagao a carac- 
teristica representada, estabelecendo uma relagao de ordem entre as unidades das diferentes categorias. A escala 
ordinal e uma escala de ordenagao, designando uma posigao relativa das classes segundo uma diregao. Qualquer 
conjunto de valores pode ser atribuido as categorias das variaveis, desde que a ordem entre elas seja respeitada. 

Assim como na escala nominal, operagoes aritmeticas (somas, diferengas, multiplicagoes e divisoes) entre esses 
valores nao fazem sentido. Desse modo, a aplicagao das estatisticas descritivas usuais tambem e limitada para va¬ 
riaveis de natureza nominal. Como o numero das escalas tern apenas um significado de classificagao, as estatisti¬ 
cas descritivas que podem ser utilizadas para dados ordinais sao as tabelas de distribuigoes de frequencia, graficos 
(incluindo o de barras e setores) e o calculo da moda, conforme sera estudado no Capitulo 2. 

Exemplos de variaveis ordinais incluem opiniao e escalas de preferencia de consumidores, grau de escolari- 
dade, classe social, faixa etaria, etc. 

Imagine uma variavel nao metrica denominada Classificagao que mede a preferencia de um grupo de con¬ 
sumidores em relagao a uma marca de vinho. A criagao dos rotulos para cada categoria da variavel ordinal esta 
especificada naTabela 1.6. O valor 1 e atribuido a pior classificagao, o valor 2 para a segunda pior e assim suces- 
sivamente, ate o valor 5 para a melhor classificagao, como mostra esta tabela. 
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Tabefa 1.6 Classifica^ao dos consumidores em rela^ao a uma marca de vinho. 


Valor 

Rotulo 

1 

Pessimo 

2 

Ruim 

3 

Regular 

4 

Bom 

5 

Muito bom 


Em vez de utilizar as escalas de 1 a 5, poderfamos ter atribuido qualquer outra escala numerica, desde que a 
ordem de classifica^ao fosse respeitada. Assim, os valores numericos nao representam uma nota de qualidade do 
produto, tern apenas um significado de classifica^ao, de modo que a diferen^a entre esses valores nao representa a 
diferen^a do atributo analisado. Estas escalas de mensura^ao sao conhecidas como ordinais. 

A Figura 1.10 apresenta as caracteristicas das variaveis em estudo no ambiente Variable View do SPSS. A 
variavel Consumidor e do tipo string (seus dados estao inseridos na forma de caracteres ou letras) com escala de 
mensura^ao do tipo nominal. Ja a variavel Classificagao e do tipo numerica (valores numericos foram atribuidos 
para representar as categorias da variavel) com escala de mensura^ao ordinal. 

O procedimento para a cria£ao dos rotulos de variaveis qualitativas em escala ordinal e o mesmo daquele ja 
apresentado para as variaveis nominais. 


gie gffit View Data Transform. Analyze bked.Maytetyig Window ,He;lp . 



J_jConsumfdor jString JlO JO J jNone [None 8 !IP Left ^Nominal 

2 _ Ciassifica^ao [Numeric 8 _jO_J_ f{1, P6ssimo...jNone 8 Right Jj Ordinal 


Figura 1.10 Defini$ao das caracteristicas das variaveis no ambiente Variable View. 

1.3.3. Variavel quantitativa - escala intervalar 

De acordo com a classifica^ao de Stevens (1946), as variaveis metricas ou quantitativas possuem dados em es¬ 
cala intervalar ou de razao. 

A escala intervalar, alem de ordenar as unidades quanto a caracteristica mensurada, possui uma unidade de 
medida constante. A origem ou o ponto zero dessa escala de medida e arbitrario e nao expressa ausencia de quan- 
tidade. 

Um exemplo classico de escala intervalar e a temperatura medida em graus Celsius (°C) ou Fahrenheit (°F). 
A escolha do zero e arbitraria e diferen^as de temperaturas iguais sao determinadas por meio da identifica^ao de 
volumes iguais de expansao no liquido usado no termometro. Dessa forma, a escala intervalar permite inferir di- 
feren^as entre unidades a serem medidas, porem, nao se pode afirmar que um valor em um intervalo especifico 
da escala seja multiplo de outro. Por exemplo, suponha dois objetos medidos a uma temperatura de 15°C e 30°C, 
respectivamente. A mensura^ao da temperatura permite determinar o quanto um objeto e mais quente que o 
outro, porem, nao se pode afirmar que o objeto com 30°C esta duas vezes mais quente que o outro com 15°C. 

A escala intervalar e invariante sob transformagoes lineares positivas, de modo que uma escala intervalar pode 
ser transformada em outra por meio de uma transforma^ao linear positiva. A transforma^ao de graus Celsius em 
Fahrenheit e um exemplo de transforma^ao linear. 

A maioria das estatisticas descritivas pode ser aplicada para dados de variavel com escala intervalar, com exce- 
$ao de estatisticas baseadas na escala de razao, como o coeficiente de varia^ao. 

1.3.4. Variavel quantitativa - escala de razao 

Analogamente a escala intervalar, a escala de razao ordena as unidades em rela^ao a caracteristica mensurada 
e possui uma unidade de medida constante. Por outro lado, a origem (ou ponto zero) e unica e o valor zero ex¬ 
pressa ausencia de quantidade. Dessa forma, e possivel saber se um valor em um intervalo especifico da escala e 
multiplo de outro. 
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Razoes iguais entre valores da escala correspondem a razoes iguais entre unidades mensuradas. Assim, es¬ 
calas de razao sao invariantes sob transforma^oes de proposes positivas. Por exemplo, se uma unidade tern 
1 metro e outra 3 metros, pode-se dizer que a ultima tern uma altura tres vezes superior a da primeira. 

Dentre as escalas de medida, a escala de razao e a mais elaborada, pois permite o uso de todas as operates 
aritmeticas. Alem disso, todas as estatisticas descritivas podem ser aplicadas para dados de uma variavel expressa 
em escala de razao. 

Exemplos de variaveis cujos dados podem estar na escala de razao incluem renda, idade, quantidade produzida 
de determinado produto e distancia percorrida. 

1.4. TIPOS DE VARIAVEIS x NUMERO DE CATEGORIAS E ESCALAS DE PRECISAO 

As variaveis qualitativas ou categoricas tambem podem ser classificadas em fun^ao do numero de categorias: 
a) dicotomicas ou binarias (dummies), quando assumem apenas duas categorias; b) policotomicas, quando assu- 
mem mais de duas categorias. 

Ja as variaveis metricas ou quantitativas tambem podem ser classificadas em fun^ao da escala de precisao: dis- 
cretas ou continuas. 

Essa classifica^ao pode ser visualizada na Figura 1.11. 


Variavel Categories 
(Qualitativa) 


Variavel Metrica 
(Quantitativa) 


Dicotomica ou Binaria 


Policotomica 


Discreta 


Continua 


Figura 1.11 Variaveis qualitativas x Numero de categorias e variaveis quantitativas x Escalas de precisao. 


1.4.1. Variavel dicotdmica ou binaria (dummy) 

Uma variavel dicotomica ou binaria (dummy) pode assumir apenas duas categorias, sendo que os valores 0 ou 
1 sao atribuidos a essas categorias. O valor 1 e atribuido quando a caracteristica de interesse esta presente na va¬ 
riavel e o valor 0, ou caso contrario. Como exemplos, temos: fumantes (1) e nao fumantes (0), pais desenvolvido 
(1) e subdesenvolvido (0), pacientes vacinados (1) e nao vacinados (0). 

As tecnicas multivariadas de dependencia tern como objetivo especificar um modelo que possa explicar e 
prever o comportamento de uma ou mais variaveis dependentes por meio de uma ou mais variaveis explicativas. 
Muitas dessas tecnicas, incluindo a analise de regressao simples e multipla, regressao logistica binaria e multino¬ 
mial, regressao para dados de contagem e correla^ao canonica, entre outras, podem ser facilmente e coerente- 
mente aplicadas com o uso de variaveis explicativas nao metricas, desde que transformadas em variaveis binarias 
que representem as categorias da variavel qualitativa original. Neste sentido, uma variavel qualitativa com n cate¬ 
gorias pode, por exemplo, ser representada por (n- 1) variaveis binarias. 

Por exemplo, imagine uma variavel denominada Avaliagao, expressa pelas categorias boa, media ou ruim. Assim, 
duas variaveis binarias podem ser necessarias para representar a variavel original, dependendo dos objetivos do 
pesquisador, conforme mostra aTabela 1.7. 


Tabela 1.7 Cria^ao de variaveis binarias (dummies) para a variavel Avaliagao. 



Variaveis Binarias ( Dummies) 

Avaliagao 

D, 

D 2 

Boa 

0 

0 

Media 

1 

0 

Ruim 

0 

1 
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Mais detalhes sobre a defini^ao de variaveis dummy em modelos de dependencia serao discutidos no Capitulo 
12, inclusive com a apresenta^ao das operates para a sua cria^ao em softwares como o Stata. 

1.4.2. Variavel policotdmica 

Uma variavel qualitativa pode assumir mais do que duas categorias e nesse caso e chamada policotomica. 
Como exemplos, podemos citar a classe social (baixa, media e alta) e o grau de escolaridade (ensino fundamental, 
ensino medio, ensino superior e pos-graduado). 

1.4.3. Variavel quantitativa discreta 

Conforme descrito na se^ao 1.2.2, as variaveis quantitativas discretas podem assumir um conjunto finito ou 
enumeravel de valores que sao provenientes, frequentemente, de uma contagem, como, por exemplo, a quanti- 
dade de numero de filhos (0,1,2,...), a quantidade de senadores eleitos ou a quantidade de carros fabricados em 
determinada fabrica. 

1.4.4. Variavel quantitativa contmua 

As variaveis quantitativas contmuas, por sua vez, sao aquelas cujos possiveis valores pertencem a um intervalo 
de numeros reais e que resultam de uma mensura^ao metrica, por exemplo, peso, altura ou o salario de um indi- 
viduo (Bussab e Morettin, 2011). 

1.5. CONSIDERA0ESFINAIS 

Os dados, quando tratados e analisados por meio das mais variadas tecnicas estatisticas, transformam-se em 
informa^oes, dando suporte para a tomada de decisao. 

Esses dados podem ser metricos (quantitativos) ou nao metricos (categoricos ou qualitativos). Os dados 
metricos representam caracteristicas de um individuo, objeto ou elemento resultantes de contagem ou men- 
sura^ao (pesos de pacientes, idade, taxa Selic, entre outros exemplos). No caso dos dados nao metricos, essas 
caracteristicas nao podem ser medidas ou quantificadas (respostas do tipo sim ou nao, grau de escolaridade, 
entre outras). 

Segundo Stevens (1946), as escalas de mensura^ao das variaveis nao metricas ou qualitativas podem ser classi- 
ficadas como nominal e ordinal, enquanto as variaveis metricas ou quantitativas se classificam em escala intervalar 
e de razao (ou proporcional). 

Muitos dados podem ser coletados tanto na forma metrica quanto nao metrica. Suponha que se deseja avaliar 
a qualidade de determinado produto. Para isso, podem ser atribuidas notas de 1 a 10 em rela^ao a determinados 
atributos, assim como pode ser elaborada uma escala Likert a partir de informa^oes estabelecidas. De maneira 
geral, sempre que possivel, as perguntas devem ser elaboradas na forma quantitativa, de modo que nao se perca 
informa^oes dos dados. 

Para Favero et al. (2009), a elabora^ao do questionario e a defini^ao das escalas de mensura^ao das variaveis 
vai depender de diversos aspectos, incluindo os objetivos de pesquisa, a modelagem a ser adotada para atingir tais 
objetivos, o tempo medio para aplica^ao do questionario e a forma de coleta. Um banco de dados pode apresen- 
tar tanto variaveis em escalas metricas como nao metricas, nao precisando se restringir a apenas um tipo de esca¬ 
la. Essa combina^ao pode propiciar pesquisas interessantes e, juntamente com as modelagens adequadas, podem 
gerar informa^oes voltadas a tomada de decisao. 

O tipo de variavel coletada e crucial no calculo de estatisticas descritivas e na representa^ao grafica de resul- 
tados, bem como na escolha de metodos estatisticos a serem utilizados para analisar os dados. 


1.6. EXERCICIOS 

1) Qual a diferenga entre variaveis qualitativas e quantitativas? 

2) O que sao escalas de mensura^ao e quais os principals tipos? Quais as diferengas existentes? 

3) Qual a diferen^a entre variaveis discretas e continuas? 
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4) Classificar as variaveis a seguir segundo as seguintes escalas: nominal, ordinal, binaria, discreta ou contmua. 

a) Faturamento da empresa. 

b) Ranking de desempenho: bom, medio e ruim. 

c) Tempo de processamento de uma pe^a. 

d) Numero de carros vendidos. 

e) Distancia percorrida em km. 

f) Municipios do Grande ABC. 

g) Faixa de renda. 

h) Notas de um aluno: A, B, C, D, O ou R. 

i) Horas trabalhadas. 

j) Regiao: Norte, Nordeste, Centro-Oeste, Sul e Sudeste. 

k) Localiza^ao: Barueri ou Santana de Parnaiba. 

l) Tamanho da organiza^ao: pequeno, medio e grande porte. 

m) Numero de dormitorios. 

n) Classifica^ao de risco: elevado, medio, especulativo, substancial, em moratoria. 

o) Casado: sim ou nao. 

5) Um pesquisador deseja estudar o impacto da aptidao fisica na melhoria da produtividade de uma organiza^ao. 
Como seria uma eventual descri^ao das variaveis binarias, para inclusao neste modelo, a fim de representar a va- 
riavel aptidao fisica. As possiveis categorias da variavel sao: (a) ativo e saudavel; (b) aceitavel (poderia ser melhor); 
(c) nao suficientemente boa; (d) sedentario. 





ESTATISTICA DESCRITIVA 










Estati'stica Descritiva Univariada 


A matematica e o oifobeto que Deus usou para escrevero Universo. 

Galileu Galilei 


Ao final deste capitulo, voce sera capaz de: 

• Compreender os principals conceitos de estatistica descritiva univariada. 

• Escolher o(s) metodo(s) adequado(s), incluindo tabelas, graficos e/ou medidas-resumo, para descrever o 
comportamento de cada tipo de variavel. 

• Representar a frequencia da ocorrencia de um conjunto de observances por meio das tabelas de 
distributes de frequencias. 

• Representar a distribuipao de uma variavel com graficos. 

• Utilizar medidas de posipao ou localizapao (tendencia central e separatrizes) para representar um conjunto 
de dados. 

• Medir a variabilidade de um conjunto de dados por meio das medidas de dispersao. 

• Utilizar medidas de assimetria e curtose para caracterizar a forma da distribuigao dos elementos da 
populagao amostrados em torno da media. 

• Gerar tabelas, graficos e medidas-resumo por meio do Excel, do IBM SPSS Statistics Software® e do Stata 
Statistical Software®. 


2.1. INTRODUgAO 

A estatistica descritiva descreve e sintetiza as caracteristicas principais observadas em um conjunto de dados 
por meio de tabelas, graficos e medidas-resumo, permitindo ao pesquisador melhor compreensao do comporta¬ 
mento dos dados. A analise e baseada no conjunto de dados em estudo (amostra), sem tirar quaisquer conclusoes 
ou inferences acerca da popula^ao. 

Pesquisadores podem fazer uso da estatistica descritiva para estudar uma unica variavel (estatistica descritiva 
univariada), duas variaveis (estatistica descritiva bivariada) ou mais de duas variaveis (estatistica descritiva multiva- 
riada). Neste capitulo, estudaremos os conceitos de estatistica descritiva envolvendo uma unica variavel. 

A estatistica descritiva univariada contempla os seguintes topicos: a) a frequencia de ocorrencia de um con¬ 
junto de observances por meio de tabelas de distributes de frequencias; b) a representapao da distribui^ao de 
uma variavel por meio de graficos; e c) medidas representativas de uma serie de dados, como medidas de posi^ao 
ou localizanao, medidas de dispersao ou variabilidade e medidas de forma (assimetria e curtose). 

Os quatro maiores objetivos deste capitulo sao: (1) introduzir os conceitos relativos as tabelas, graficos e me¬ 
didas-resumo mais usuais em estatistica descritiva univariada, (2) apresentar suas aplicapoes em exemplos reais, (3) 
gerar tabelas, graficos e medidas-resumo por meio do Excel e dos softwares estatisticos SPSS e Stata e (4) discutir 
os resultados obtidos. 

Conforme descrito no capitulo anterior, antes de iniciarmos o uso da estatistica descritiva, e necessario iden- 
tificarmos o tipo de variavel a ser estudada. O tipo de variavel e crucial no calculo de estatisticas descritivas e 
na representanao grafica de resultados. A Figura 2.1 apresenta as estatisticas descritivas univariadas que serao es- 
tudadas neste capitulo, representadas por meio de tabelas, graficos e medidas-resumo, para cada tipo de variavel. 
A Figura 2.1 resume as seguintes informanoes: 
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a) As estatisticas descritivas utilizadas para representar o comportamento dos dados de uma variavel qualita- 
tiva sao tabelas de distribui^ao de frequencia e graficos. 

b) A tabela de distribui^ao de frequencias para uma variavel qualitativa representa a frequencia de ocorrencias 
de cada categoria da variavel. 

c) A representa^ao grafica de variaveis qualitativas pode ser ilustrada por meio de graficos de barras (horizon¬ 
tal e vertical), de setores ou pizzas e do diagrama de Pareto. 

d) Para as variaveis quantitativas, as estatisticas descritivas mais utilizadas sao graficos e medidas-resumo (me- 
didas de posi^ao ou localiza^ao, dispersao ou variabilidade e medidas de forma).A tabela de distribui^ao de 
frequencias tambem pode ser utilizada para representar a frequencia de ocorrencias de cada valor possivel 
de uma variavel discreta, ou ainda para representar a frequencia dos dados de variaveis continuas agrupadas 
em classes. 

e) A representa^ao grafica de variaveis quantitativas e geralmente ilustrada por meio de graficos de linhas, 
grafico de pontos ou dispersao, histograma, grafico de ramo-e-folhas e boxplot (diagrama de caixa). 

f) As medidas de posi^ao ou localiza^ao podem ser divididas em medidas de tendencia central (media, moda 
e mediana) e medidas separatrizes (quartis, decis e percentis). 

g) As medidas de dispersao ou variabilidade mais utilizadas sao amplitude, desvio-medio, variancia, desvio- 
-padrao, erro-padrao e coeficiente de varia^ao. 

h) As medidas de forma incluem medidas de assimetria e curtose. 



Figura 2.1 Estatisticas descritivas univariadas em fun^ao do tipo de variavel. 

* A moda que fornece o valor mais frequente de uma variavel e a unica medida-resumo que tambem pode ser utilizada para variaveis qualitativas. 
Fonte: Adaptado de McClave etal. (2009). 


2 . 2 . TABELA DE DISTRIBUI^AO DE FREQUENCIAS 

As tabelas de distributes de frequencia podem ser utilizadas para representar a frequencia de ocorrencias de 
um conjunto de observa^oes de variaveis qualitativas ou quantitativas. 

No caso de variaveis qualitativas, a tabela representa a frequencia de ocorrencias de cada categoria da varia¬ 
vel. Para as variaveis quantitativas discretas, a frequencia de ocorrencias e calculada para cada valor discreto da 
variavel. Ja os dados das variaveis continuas sao agrupados inicialmente em classes, e a partir dai sao calculadas as 
frequencias de ocorrencias para cada classe. 
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Uma tabela de distribui^ao de frequencias compoe os seguintes calculos: 

a) Frequencia absoluta ( F { ): numero de ocorrencias de cada elemento i na amostra. 

b) Frequencia relativa (Fr t ): porcentagem relativa a frequencia absoluta. 

c) Frequencia acumulada ( F ac ): soma de todas as ocorrencias ate o elemento analisado. 

d) Frequencia relativa acumulada ( Fr ac ): porcentagem relativa a frequencia acumulada (soma de todas as 
frequencias relativas ate o elemento analisado). 

2.2.1 • Tabela de distribui^ao de frequencias para variaveis qualitativas 

Por meio de um exemplo pratico, construiremos a tabela de distribui^ao de frequencias, com os calculos da 
frequencia absoluta, frequencia relativa, frequencia acumulada e frequencia relativa acumulada para cada catego- 
ria da variavel qualitativa analisada. 

■ EXEMPLO 1 

O Hospital Santo Augusto de Anjo realiza mensalmente 3.000 transfusoes de sangue em pacientes interna- 
dos. Para que o hospital consiga manter seus estoques, sao necessarias 60 doa^oes de sangue por dia. A Tabela 2.1 
apresenta o total de doadores para cada tipo sanguineo em determinado dia. Construa a tabela de distribui^ao de 
frequencias para o problema em questao. 


Tabela 2.1 Total de doadores para cada tipo sanguineo. 


Tipo sanguineo 

Doadores 

A+ 

15 

A- 

2 

B+ 

6 

B- 

1 

AB+ 

1 

AB- 

1 

o+ 

32 

O- 

2 


■ SOLU^AO 

A tabela completa de distribui^ao de frequencias para o Exemplo 1 esta representada a seguir (Tabela 2.2): 


Tabela 2.2 Distribui<;ao de frequencias do Exemplo 1. 


Tipo sanguineo 

F ( 

Fr, <%) 

F ac 

Fr ac (%) 

A+ 

15 

25 

15 

25 

A- 

2 

3,33 

17 

28,33 

B+ 

6 

10 

23 

38,33 

B- 

1 

1,67 

24 

40 

AB+ 

1 

1,67 

25 

41,67 

AB- 

1 

1,67 

26 

43,33 

o+ 

32 

53,33 

58 

96,67 

O- 

2 

3,33 

60 

100 

Soma 

60 

100 




2.2.2. Tabela de distribui^ao de frequencias para dados discretos 

Por meio da tabela de distribui^ao de frequencias, podemos calcular a frequencia absoluta, a frequencia relati¬ 
va, a frequencia acumulada e a frequencia relativa acumulada para cada possivel valor da variavel discreta. 
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Diferente das variaveis qualitativas, no lugar das possiveis categorias devem constar os possiveis valores nume- 
ricos. Para facilitar o entendimento, os dados devem estar representados em ordem crescente. 

■ EXEMPLO 2 

Um restaurante japones esta definindo o novo layout das mesas e, para isso, fez um levantamento do numero 
de pessoas que almogam e jantam em cada mesa ao longo de uma semana. ATabela 2.3 mostra os 40 primeiros 
dados coletados. Construa a tabela de distribui^ao de frequencias para esses dados. 


Tabela 2.3 Numero de pessoas por mesa. 


2 

5 

4 

7 

4 

1 

6 

2 

2 

5 

4 

12 

8 

6 

4 

5 

2 

8 

2 

6 

4 

7 

2 

5 

6 

4 

1 

5 

10 

2 

2 

10 

6 

4 

3 

4 

6 

3 

8 

4 


■ SOLU^AO 

Na proxima tabela, cada linha da primeira coluna representa um possivel valor numerico da variavel analisada. 
Os dados sao ordenados de forma crescente. A tabela completa de distribui^ao de frequencias para o Exemplo 2 
esta representada a seguir. 


Tabela 2.4 Distribul^ao de frequencias para o Exemplo 2. 


Numero de pessoas 

Fi 

Fr { <%) 

F dc 

Fr ac (%) 

1 

2 

5 

2 

5 

2 

8 

20 

10 

25 

3 

2 

5 

12 

30 

4 

9 

22,5 

21 

52,5 

5 

5 

12,5 

26 

65 

6 

6 

15 

32 

80 

7 

2 

5 

34 

85 

8 

3 

7,5 

37 

92,5 

10 

2 

5 

39 

97,5 

12 

1 

2,5 

40 

100 

Soma 

40 

100 




2.2.3. Tabela de distribui^ao de frequencias para dados contfnuos agrupados em classes 

Conforme descrito no Capitulo 1, as variaveis quantitativas continuas sao aquelas cujos possiveis valores per- 
tencem a um intervalo de numeros reais. Desta forma, nao faz sentido calcular a frequencia para cada valor pos¬ 
sivel, ja que eles raramente se repetem.Torna-se interessante agrupar os dados em classes ou faixas. 

O intervalo a ser definido entre as classes e arbitrario, Porem, devemos tomar cuidado se o numero de classes 
for muito pequeno, pois as informa^oes sao perdidas; por outro lado, se o numero de classes for muito grande, o 
resumo das informa^oes fica prejudicado (Bussab e Morettin, 2011). O intervalo entre as classes nao precisaria ser 
constante, mas por uma questao de simplicidade, assumiremos o mesmo intervalo. 

Os seguintes passos devem ser tornados para a constru^ao de uma tabela de distribui^ao de frequencias para 
dados continuos: 

Passo 1: Ordenar os dados de forma crescente. 

Passo 2: Determinar o numero de classes ( k ), utilizando uma das op^oes a seguir: 

a) Expressao de Sturges —> k = 1 + 3,3 * log(n) 

b) Pela expressao k = ^fn 

em que n e o tamanho da amostra. 

O valor de k deve ser um numero inteiro. 
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Passo 3: Determinar o intervalo entre as classes (h), calculado como a amplitude da amostra (A — valor maximo 
— valor minimo) dividido pelo numero de classes: 

h =A/k 

O valor de h e aproximado para o maior inteiro. 

Passo 4: Construir a tabela de distribui^ao de frequencias (calcular a frequencia absoluta, a frequencia relativa, a 
frequencia acumulada e a frequencia relativa acumulada) para cada classe. 

O limite inferior da primeira classe corresponde ao valor minimo da amostra. Para determinar o limite supe¬ 
rior de cada classe, devemos somar o valor de h ao limite inferior da respectiva classe. O limite inferior da nova 
classe corresponde ao limite superior da classe anterior. 

M EXEMPLO 3 

Considere os dados da Tabela 2.5 referentes as notas dos 30 alunos matriculados na disciplina de Mercado 
Financeiro. Construa uma tabela de distribui^ao de frequencias para o problema em questao. 


Tabela 2.5 Notas dos 30 alunos na disciplina de Mercado Financeiro. 


4,2 

3,9 

5,7 

6,5 

4,6 

6,3 

8,0 

4,4 

5,0 

5,5 

6,0 

4,5 

5,0 

7,2 

6,4 

7,2 

5,0 

6,8 

4,7 

3,5 

6,0 

7,4 

8,8 

3,8 

5,5 

5,0 

6,6 

7,1 

5,3 

4,7 


OBS.: Para determinar o numero de classes, utilizar a expressao de Sturges. 


■ solu^Ao 

Aplicaremos os quatro passos para a constru^ao da tabela de distribuifao de frequencias do Exemplo 3, cujas 
variaveis sao continuas: 

Passo IrVamos ordenar os dados em forma crescente, conforme mostra a Tabela 2.6. 


Tabela 2.6 Dados da Tabela 2.5 ordenados de forma crescente. 


3,5 

3,8 

3,9 

4,2 

4,4 

4,5 

4,6 

4,7 

4,7 

5 

5 

5 

5 

5,3 

5,5 

5,5 

5,7 

6 

6 

6,3 

6,4 

6,5 

6,6 

6,8 

7,1 

7,2 

7,2 

7,4 

8 

8,8 


Passo 2: Determinaremos o numero de classes (fe) pela expressao de Sturges: 

k = 1 + 3,3 • log(30) - 5,87 = 6 

Passo 3: O intervalo entre as classes ( h ) e dado por: 



(8,8-3,5) 
6 


= 0,88 = 1 


Passo 4: Por fim, construiremos a tabela de distribui^ao de frequencias para cada classe. 


O limite inferior da primeira classe corresponde a nota minima 3,5. A partir desse valor, devemos somar o 
intervalo entre as classes (1), de forma que o limite superior da primeira classe sera 4,5. A segunda classe se inicia 
a partir desse valor e assim sucessivamente, ate que a ultima classe seja definida. Utilizaremos a nota^ao (- para de¬ 
terminar que o limite inferior esta incluido na classe e o limite superior, nao. A tabela completa de distribui^ao 
de frequencias para o Exemplo 3 (Tabela 2.7) esta apresentada a seguir. 





26 Manual de Analise de Dados: Estatfstica e Modelagem Multivariada com Excel®, SPSS® e Stata' 


Tabela 2.7 Distrlbuigao de frequencias para o Exemplo 3. 


Classe 

Fi 

Fr { (%) 

F ac 

Fr ac (%) 

3,5 [-4,5 

5 

16,67 

5 

16,67 

4,5 [-5,5 

9 

30 

14 

46,67 

5,5 [- 6,5 

7 

23,33 

21 

70 

6,5 |-7,5 

7 

23,33 

28 

93,33 

7,5 [-8,5 

1 

3,33 

29 

96,67 

8,5 |-9,5 

1 

3,33 

30 

100 

Soma 

30 

100 




23. REPRESENTAgAO GRAFICA DE RESULTADOS 

O comportamento dos dados de variaveis qualitativas e quantitativas tambem pode ser representado grafica- 
mente. O grafico e uma representa^ao de dados numericos, na forma de figuras geometricas (diagramas, desenhos 
ou imagens), permitindo ao leitor interpreta^ao rapida e objetiva desses dados. 

Na se^ao 2.3.1 sao ilustradas as principals representa^oes graficas para variaveis qualitativas: grafico de barras 
(horizontal e vertical), grafico de setores ou pizza e diagrama de Pareto. 

A representa^ao grafica de variaveis quantitativas e geralmente ilustrada por meio de graficos de linhas, grafico de 
pontos ou dispersao, histograma, grafico de ramo-e-folhas e boxplot (diagrama de caixa), conforme mostra a se^ao 2.3.2. 

O grafico de barras (horizontal e vertical), o grafico de setores ou pizza, o diagrama de Pareto, o grafico de 
linhas, o grafico de pontos ou dispersao e o histograma serao construidos a partir do Excel. O boxplot e o histo¬ 
grama serao gerados por meio do SPSS e do Stata. 

Para criar um grafico no Excel, os dados e os nomes das variaveis devem ser tabulados antecipadamente e 
selecionados em uma planilha. O proximo passo consiste em clicar no menu Inserir e, no grupo Graficos, se- 
lecionar o tipo de grafico desejado (Colunas, Linhas, Pizza, Barras, Area, Dispersao, Outros Graficos). O grafico 
sera gerado automaticamente na tela, podendo ser personalizado de acordo com as suas preferences. 

O Excel oferece uma variedade de estilos, layouts e formata^ao de graficos. Para utiliza-los, basta selecionar o 
grafico plotado e clicar no menu Design, Layout ou Formatar. No menu Layout, por exemplo, estao disponi- 
veis varios recursos como Titulo do Grafico, Titulos dos Eixos (exibe o nome do eixo horizontal e vertical), 
Legenda (mostra ou oculta uma legenda), Rotulos de Dados (permite inserir o nome da serie ou categoria e 
os valores dos rotulos no local desejado), Tabela de Dados (mostra a tabela de dados abaixo do grafico, com ou 
sem codigos de legenda), Eixos (permite personalizar a escala dos eixos horizontal e vertical), Linhas de Grade 
(exibe ou oculta linhas de grade horizontal e verticals), entre outros. Os icones Titulo do Grafico,Titulos dos 
Eixos, Legenda, Rotulos de Dados e Tabela de Dados pertencem ao grupo Rotulos, enquanto os icones Eixos 
e Linhas de Grade concernem ao grupo Eixos. 

2.3.1 • Representa^ao grafica para variaveis qualitativas 
23.7.7. Grafico de barras 

Este tipo de grafico e bastante utilizado para variaveis qualitativas nominais e ordinais, mas tambem pode ser 
usado para variaveis quantitativas discretas, pois permite investigar a presen^a de tendencia de dados. 

Como o proprio nome diz, o grafico representa, por meio de barras, as frequencias absolutas ou relativas de 
cada possivel categoria (ou valor numerico) de uma variavel qualitativa (ou quantitativa). No grafico de barras 
vertical, cada categoria da variavel e representada no eixo das abscissas por uma barra de largura constante, e a 
altura da respectiva barra indica a frequencia da categoria no eixo das ordenadas. Ja no grafico de barras ho¬ 
rizontal, cada categoria da variavel e representada no eixo das ordenadas por uma barra de altura constante, e o 
comprimento da respectiva barra indica a frequencia da categoria no eixo das abscissas. 

Vamos agora construir o grafico de barras horizontal e vertical a partir de um exemplo pratico. 

■ EXEMPLO 4 

Um banco elaborou uma pesquisa de satisfa^ao com 120 clientes buscando medir o grau agilidade no atendi- 
mento (excelente, bom, regular e ruim).As frequencias absolutas para cada categoria estao representadas na Tabela 
2.8. Construa um grafico de barras vertical e horizontal para o problema em questao. 
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Tabela 2.8 Frequences de ocorrencias por categoria. 


Satisfagao 

Frequencia absoluta 

Excelente 

58 

Bom 

18 

Regular 

32 

Ruim 

12 


■ SOLU?AO 

Construiremos os graficos de barras vertical e horizontal do Exemplo 4 no Excel. 

Inicialmente, os dados da Tabela 2.8 devem estar tabulados e selecionados em uma planilha. Assim, podemos 
clicar no menu Inserir e, no grupo Graficos, selecionar a op^ao Colunas. O grafico e gerado automaticamen- 
te na tela. 

Na sequencia, para personalizar o grafico, devemos, ao clicar nele, selecionar os seguintes icones no me¬ 
nu Layout: a) Titulos dos Eixos: selecionaremos o titulo do eixo horizontal ( Satisfagao ) e do eixo vertical 
(. Frequencia ); b) Legenda: para ocultar a legenda, devemos clicar em Nenhum; c) Rotulos de Dados: clicando 
em Mais op£oes de Rotulo de Dados, a op^ao Valor deve ser selecionada em Conteudo do Rotulo (ou 
selecionamos diretamente a opgao Extremidade Externa). 

A Figura 2.2 apresenta o grafico de barras vertical do Exemplo 4 construido no Excel. 



Figura 2.2 Grafico de barras vertical para o Exemplo 4. 


Podemos verificar, pela da Figura 2.2, que as categorias da variavel analisada estao representadas no eixo das 
abscissas por barras da mesma largura e suas respectivas alturas indicam as frequencias no eixo das ordenadas. 

Para a constru^ao do grafico de barras horizontal, devemos selecionar a op^ao Barras ao inves de Colunas. 
Os demais passos seguem a mesma logica. A Figura 2.3 representa os dados de frequencia da Tabela 2.8 por meio 
de um grafico de barras horizontal construido no Excel. 



Figura 2.3 Grafico de barras horizontal para o Exemplo 4. 
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O grafico de barras horizontal da Figura 2.3 representa as categorias da variavel no eixo das ordenadas e suas 
respectivas frequences no eixo das abscissas. Para cada categoria da variavel, desenha-se uma barra com compri- 
mento correspondente a sua frequencia. 

Este grafico oferece, portanto, apenas informa^oes relativas ao comportamento de cada categoria da variavel 
original e a elabora^ao de investigates acerca do tipo de distribui^ao, nao permitindo o calculo de medidas de 
posi^ao, dispersao, assimetria ou curtose, ja que a variavel em estudo e qualitativa. 

2.3.7.2. Grafico de setores ou pizza 

Outra forma de representar dados qualitativos, em termos de frequencia relativa (porcentagem), consiste na 
elabora^ao de graficos de setores ou pizza. O grafico corresponde a um circulo de raio arbitrario (todo) dividido 
em setores ou pizzas de diversos tamanhos (partes do todo). 

Este grafico permite ao pesquisador a oportunidade de visualizar os dados como fatias de pizza ou por^oes 
de um todo. Construiremos a seguir o grafico de setores ou pizza a partir de um exemplo pratico. 

■ EXEMPLO 5 

Uma pesquisa eleitoral foi aplicada na cidade de Sao Paulo para verificar a preferencia dos eleitores em rela^ao 
aos partidos na proxima elei^ao a prefeitura. A porcentagem de eleitores por partido esta representada na Tabela 
2.9. Construa um grafico de setores ou pizza para o Exemplo 5. 


Tabela 2.9 Porcentagem de eleitores por partido. 


Partido 

Porcentagem 

PMDB 

18 

Rede 

22 

PDT 

12 

PSDB 

25 

PC doB 

8 

PV 

5 

Outros 

10 


■ SOLU^AO 

Construiremos o grafico de setores ou pizza do Exemplo 5 a partir do Excel. A sequencia de passos e seme- 
lhante a apresentada no Exemplo 4, porem, selecionaremos a op^ao Pizza no grupo Graficos do menu Inserir. 
A Figura 2.4 apresenta o grafico de pizza obtido pelo Excel para os dados apresentados na Tabela 2.9. 



Figura 2.4 Grafico de pizza do Exemplo 5. 
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23.1.3. Diagrama de Pareto 

O diagrama de Pareto e uma das ferramentas da Qualidade e tem como objetivo investigar os tipos de pro- 
blemas e, consequentemente, identificar suas respectivas causas, de forma que uma a$ao possa ser tomada a fim 
de reduzi-las ou elimina-las. 

O diagrama de Pareto e um grafico de barras vertical combinado com um grafico de linhas. As barras repre- 
sentam as frequencias absolutas de ocorrencias dos problemas e as linhas representam as frequencias relativas acu- 
muladas. Os problemas sao ordenados em forma decrescente de prioridade. Ilustraremos a seguir um exemplo 
pratico do diagrama de Pareto. 

■ EXEMPLO 6 

Uma empresa fabricante de cartoes de credito e magneticos tem como objetivo reduzir o numero de car- 
toes defeituosos. O inspetor de qualidade classificou a amostra de 1.000 cartoes coletada durante uma semana de 
produ^ao, de acordo com os tipos de defeitos detectados, como mostra aTabela 2.10. Construa o diagrama de 
Pareto para o problema em questao. 


Tabela 2.10 Frequencias de ocorrencias de cada defeito. 


Tipo de defeito 

Frequencia absoluta (F { ) 

Amassado 

71 

Perfurado 

28 

Impressao ilegivel 

12 

Caracteres errados 

20 

Numeros errados 

44 

Outros 

6 

Total 

181 


■ SOLU^AO 

O primeiro passo para a constru^ao do diagrama de Pareto e ordenar os defeitos por ordem de prioridade 
(da maior frequencia para a menor). O grafico de barras representa a frequencia absoluta de cada defeito. Para a 
constru^ao do grafico de linhas, e necessario calcular a frequencia relativa acumulada (%) ate o defeito analisado. 
ATabela 2.11 apresenta a frequencia absoluta para cada tipo de defeito, em ordem decrescente, e a frequencia 
relativa acumulada (%). 


Tabela 2.11 Frequencia absoluta para cada defeito e frequencia relativa acumulada (%). 


Tipo de defeito 

Numero de defeitos 

% Acumulado 

Amassado 

71 

39,23 

Numeros errados 

44 

63,54 

Perfurado 

28 

79,01 

Caracteres errados 

20 

90,06 

Impressao ilegivel 

12 

96,69 

Outros 

6 

100 


Construiremos a seguir o diagrama de Pareto para o Exemplo 6 por meio do Excel, a partir dos dados da 
Tabela 2.11. 

Inicialmente, os dados da Tabela 2.11 devem estar tabulados e selecionados em uma planilha do Excel. No gru- 
po Graficos do menu Inserir, vamos escolher a op^ao Colunas (e o subtipo colunas agrupadas). Repare que o 
grafico e gerado automaticamente na tela, porem, tanto os dados de frequencia absoluta como os de frequencia re¬ 
lativa acumulada sao representados em colunas. Para alterar o tipo de grafico referente a porcentagem acumulada, 
devemos clicar com o botao direito sobre qualquer barra da respectiva serie e selecionar a op^ao Alterar Tipo de 
Grafico de Serie, seguido por um grafico de linhas com marcadores. O grafico resultante e o diagrama de Pareto. 

Para personalizar o diagrama de Pareto, devemos utilizar os seguintes icones no menu Layout: a) Titulos 
dos Eixos: para o grafico de barras, selecionamos o titulo do eixo horizontal (Tipo de defeito) e do eixo vertical 
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(. Frequencia);p2Lr2i o grafico de linhas, atribuimos o nome Percentual ao eixo vertical; b) Legenda: para ocultar a le- 
genda, devemos clicar em Nenhum; c) Tabela de Dados: selecionaremos a op^ao Mostrar Tabela de Dados 
com Codigos de Legenda; d) Eixos: a unidade principal dos eixos verticals para ambos os graficos e fixada 
em 20 e o valor maximo do eixo vertical para o grafico de linhas, em 100. 

A Figura 2.5 apresenta o grafico gerado pelo Excel que corresponde ao diagrama de Pareto do Exemplo 6. 



Figura 2.5 Diagrama de Pareto para o Exemplo 6. 


23.2. Representa^ao grafica para variaveis quantitativas 
2.3.2. 7. Grafico de linhas 

No grafico de linhas, pontos sao representados pela intersec^ao das variaveis envolvidas no eixo das abscissas 
(X) e das ordenadas (Y), e os mesmos sao ligados por segmentos de reta. 

Apesar de considerar dois eixos, o grafico de linhas sera utilizado neste capitulo para representar o comporta- 
mento de uma unica variavel. O grafico mostra a evolu^ao ou tendencia dos dados de uma variavel quantitativa, 
geralmente continua, em intervalos regulares. Os valores numericos da variavel sao representados no eixo das 
ordenadas e o eixo das abscissas mostra apenas a distribui^ao dos dados de forma uniforme. Ilustraremos a seguir 
um exemplo pratico do grafico de linhas. 

■ EXEMPLO 7 

O supermercado Barato & Facil registrou a porcentagem de perdas nos ultimos 12 meses (Tabela 2.12) e, a 
partir dai, adotara novas medidas de preven^ao. Construa um grafico de linhas para o Exemplo 7. 

Tabela 2.12 Porcentagem de perdas nos ultimos 12 meses. 


Mes 

Perdas (%) 

Janeiro 

0,42 

Fevereiro 

0,38 

Mar^o 

0,12 

Abril 

0,34 

Maio 

0,22 

Junho 

0,15 

Julho 

0,18 

Agosto 

0,31 

Setembro 

0,47 

Outubro 

0,24 

Novembro 

0,42 

Dezembro 

0,09 
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M SOLU^AO 

Para construir o grafico de linhas do Exemplo 7 a partir do Excel, no grupo Graficos do menu Inserir, de- 
vemos escolher a op^ao Linhas. Os demais passos seguem a mesma logica dos exemplos anteriores. O grafico 
completo esta ilustrado na Figura 2.6. 



23.2.2. Grafico de pontos ou dispersao 

O grafico de pontos ou dispersao e muito semelhante ao grafico de linhas; a maior diferen^a entre eles esta 
na forma como os dados sao plotados no eixo das abscissas. 

Analogamente ao grafico de linhas, os pontos sao representados pela intersec^ao das variaveis envolvidas no 
eixo das abscissas e das ordenadas, porem, eles nao sao ligados por segmentos de reta. 

O grafico de pontos ou dispersao estudado neste capitulo e utilizado para mostrar a evolu^ao ou tendencia 
dos dados de uma unica variavel quantitativa, semelhante ao grafico de linhas, porem, em intervalos irregulares 
(em geral).Analogamente ao grafico de linhas, os valores numericos da variavel sao representados no eixo das or¬ 
denadas e o eixo das abscissas representa apenas o comportamento dos dados ao longo do tempo. 

No proximo capitulo, veremos como o diagrama de dispersao pode ser utilizado para descrever o comporta¬ 
mento de duas variaveis simultaneamente (analise bivariada). Os valores numericos de uma variavel serao repre¬ 
sentados no eixo das ordenadas, e da outra no eixo das abscissas. 

■ EXEMPLO 8 

A empresa Papermisto e fornecedora de tres tipos de materias-primas para produ^ao de papel: celulose, pasta 
mecanica e aparas. Para manter seus padroes de qualidade, a fabrica faz uma inspe^ao rigorosa dos seus produtos 
durante cada fase de produ^ao. Em intervalos irregulares, o operador deve verificar as caracteristicas esteticas e di- 
mensionais do produto selecionado com instrumentos especializados. Por exemplo, na etapa de armazenamento 
da celulose, o produto deve ser empilhado em fardos com um peso de aproximadamente 250 kg por unidade. A 
Tabela 2.13 apresenta registros dos pesos desses fardos coletados ao longo das ultimas 5 horas, em intervalos irre¬ 
gulares variando de 20 a 45 minutos. Construa um grafico de dispersao para o Exemplo 8. 

Tabela 2.13 Evolu^ao do peso do fardo ao longo do tempo. 


Tempo (min) 

Peso (kg) 

30 

250 

50 

255 

85 

252 

106 

248 

138 

250 

178 

249 

198 

252 

222 

251 

252 

250 

297 

245 
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■ SOLU^AO 

Para a constru^ao do grafico de dispersao do Exemplo 8 no Excel, no grupo Graficos do menu Inserir, de- 
vemos escolher a op^ao Dispersao. Os demais passos seguem a mesma logica dos exemplos anteriores. O grafico 
pode ser visualizado na Figura 2.7. 



0 30 60 90 120 150 180 210 240 270 300 

Tempo (min) 


Figura 2.7 Grafico de dispersao para o Exemplo 8. 


2.3.23. Histograma 

O histograma e um grafico de barras vertical que representa a distribui^ao de frequences de uma variavel 
quantitativa (discreta ou continua). Os valores da variavel em estudo sao representados no eixo das abscissas (a ba¬ 
se de cada barra, de largura constante, representa cada valor possivel da variavel discreta ou cada classe de valores 
contmuos, ordenados em forma crescente). Ja a altura das barras no eixo das ordenadas representa a distribui^ao 
de frequencias (absoluta, relativa ou acumulada) dos respectivos valores da variavel. 

O histograma e muito semelhante ao diagrama de Pareto, sendo tambem uma das sete ferramentas da quali- 
dade. Enquanto o diagrama de Pareto representa a distribui^ao de frequencias de uma variavel qualitativa (tipos 
de problema) cujas categorias representadas no eixo das abscissas sao ordenadas por prioridade (da categoria com 
maior frequencia para a menor), o histograma representa a distribui^ao de frequencias de uma variavel quantita¬ 
tiva cujos valores representados no eixo das abscissas sao ordenados em forma crescente. 

O primeiro passo para a cria^ao de um histograma e, portanto, a constru^ao da tabela de distribui^ao de fre¬ 
quencias. Conforme apresentado nas se^oes 2.2.2 e 2.2.3, para cada valor possivel de uma variavel discreta ou pa¬ 
ra classe de dados contmuos, calcula-se a frequencia absoluta, relativa, acumulada e relativa acumulada. Os dados 
devem ser ordenados em forma crescente. 

O histograma e entao construido a partir dessa tabela. A primeira coluna da tabela de distribu^ao de fre¬ 
quencias que apresenta os valores numericos ou classes de valores da variavel em estudo sera representada no eixo 
das abscissas, e a coluna de frequencia absoluta (ou relativa, acumulada ou relativa acumulada) sera representada 
no eixo das ordenadas. 

Muitos softwares estatisticos geram o histograma automaticamente a partir dos valores originais da variavel 
quantitativa em estudo, sem a necessidade do calculo das frequencias. Apesar de o Excel possuir a op^ao de cons- 
tru^ao de um histograma a partir das ferramentas de analise, mostraremos como construi-lo a partir do grafico 
de colunas em fun^ao da simplicidade. 

■ EXEMPLO 9 

Um banco nacional esta contratando novos gerentes para atendimento a pessoas juridicas, a fim de melhorar 
o nivel de servigo de seus clientes. A Tabela 2.14 mostra o numero de empresas atendidas diariamente em uma 
das principals agendas da capital. Construa um histograma a partir desses dados pelo Excel. 


Tabela 2.14 Numero de empresas atendidas diariamente. 


13 

11 

13 

10 

11 

12 

8 

12 

9 

10 

12 

10 

8 

11 

9 

11 

14 

11 

10 

9 
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■ SOLU^AO 

O primeiro passo e a constru^ao da tabela de distribui^ao de frequencias: 


Tabela 2.15 Distribute) de frequencias para o Exemplo 9. 


Numero de empresas 

F< 

Fri (%) 

Fac 

Fr„ (%) 

8 

2 

10 

2 

10 

9 

3 

15 

5 

25 

10 

4 

20 

9 

45 

11 

5 

25 

14 

70 

12 

3 

15 

17 

85 

13 

2 

10 

19 

95 

14 

1 

5 

20 

100 

Soma 

20 

100 

- 



A partir dos dados da Tabela 2.15, podemos construir um histograma de frequencia absoluta, relativa, acumu- 
lada ou relativa acumulada pelo Excel. O histograma construido sera o de frequencias absolutas. 

Desta forma, devemos tabular e selecionar as duas primeiras colunas da Tabela 2.15 (exceto a ultima linha 
Soma) em uma planilha do Excel. No grupo Graficos do menu Inserir, escolheremos a op^ao Colunas. 

Vamos clicar no grafico gerado para personaliza-lo. No menu Layout, selecionamos os seguintes leones: a) 
Titulos dos Eixos: selecione o titulo do eixo horizontal (Numero de empresas) e do eixo vertical (Frequencia ab¬ 
soluta); b) Legenda: para ocultar a legenda, deve-se clicar em Nenhum. O histograma gerado pelo Excel pode 
ser visualizado na Figura 2.8. 



Figura 2.8 Histograma de frequencias absolutas gerado pelo Excel para o Exemplo 9. 


Conforme mencionado, muitos pacotes computacionais estatisticos, incluindo o SPSS e o Stata, geram auto- 
maticamente o histograma a partir dos dados originais da variavel em estudo (conforme este exemplo, a partir 
dos dados da Tabela 2.14), sem a necessidade do calculo das frequencias. Alem disso, esses pacotes tern a op^ao de 
plotagem da curva normal. 

A Figura 2.9 apresenta o histograma gerado pelo SPSS (com a op^ao de curva normal) a partir dos dados da 
Tabela 2.14.Veremos detalhadamente nas se^oes 2.6 e 2.7 como esse histograma pode ser construido a partir dos 
softwares SPSS e Stata, respectivamente. 

Repare que os valores da variavel discreta sao representados no centra da base. 

Para variaveis continuas, considere os dados da Tabela 2.5 (Exemplo 3) referentes as notas dos alunos na discipli- 
na de mercado financeiro. Esses dados foram ordenados em forma crescente, conforme apresentado na Tabela 2.6. 

A Figura 2.10 apresenta o histograma gerado pelo software SPSS (com a op$ao de curva normal) a partir dos 
dados da Tabela 2.5 ou da Tabela 2.6. 
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Figure 2.9 Histograma gerado pelo SPSS para o Exemplo 9 (dados discretos). 



Figure 2.10 Histograma gerado pelo SPSS para o Exemplo 3 (dados contmuos). 


Repare que os dados foram agrupados considerando um intervalo entre as classes de h = 0,5, diferentemente 
do Exemplo 3, que considerou h = 0,1. Os limites inferiores das classes sao representados do lado esquerdo da 
base da barra e os limites superiores (nao incluidos na classe) do lado direito; a altura da barra representa a fre- 
quencia total na classe. Por exemplo, a primeira barra representa a classe 3,5 f- 4,0, existindo 3 valores nesse in¬ 
tervalo (3,5; 3,8 e 3,9). 
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2.3.2.4. Grafico de ramo-e-folhas 

Tanto o grafico de barras quanto o histograma representam a distribui^ao de frequencias de uma variavel. O 
grafico de ramo-e-folhas e uma alternativa para representar distributes de frequencias de variaveis quantitativas 
discretas e continuas com poucas observa^oes, com a vantagem de manter o valor original de cada observa^ao 
(possibilita a visualiza^ao de toda a informa^ao dos dados). 

A representa^ao de cada observa^ao no grafico e dividida em duas partes, separadas por uma linha vertical: o 
ramo que fica do lado esquerdo dessa linha representa o(s) primeiro(s) digito(s) da observa^ao; a folha que fica do 
lado direito da linha e representa o(s) ultimo (s) digito(s) da observa^ao. A escolha do numero de digitos iniciais 
que ira compor o ramo ou o numero de digitos complementares que ira compor a folha e arbitraria; os ramos 
geralmente compoem os digitos mais significativos e as folhas os menos significativos. 

Os ramos sao representados em uma unica coluna e seus diferentes valores ao longo de varias linhas. Para ca¬ 
da ramo representado do lado esquerdo da linha vertical, tem-se as respectivas folhas exibidas do lado direito ao 
longo de varias colunas. Tanto os ramos quanto as folhas devem estar ordenados em forma crescente de valores. 
Nos casos em que houver muitas folhas por ramo, pode-se ter mais de uma linha com o mesmo ramo. A escolha 
do numero de linhas e arbitraria, assim como a defini^ao do numero ou do intervalo de classes em uma distri- 
bui^ao de frequencias. 

Para a constru^ao do grafico de ramo-e-folhas, podemos seguir a seguinte sequencia de passos: 

Passo 1: Ordenar os dados em forma crescente, para facilitar a visualiza^ao dos dados. 

Passo 2: Definir o numero de digitos iniciais que irao compor o ramo ou o numero de digitos complementares 
que irao compor a folha. 

Passo 3: Construir os ramos, representados em uma unica coluna do lado esquerdo da linha vertical. Seus dife¬ 
rentes valores sao representados ao longo de varias linhas, em ordem crescente. Quando o numero de folhas por 
ramo for muito grande, criam-se duas ou mais linhas para o mesmo ramo. 

Passo 4: Colocar as folhas correspondentes aos respectivos ramos, do lado direito da linha vertical, ao longo de 
varias colunas (em ordem crescente). 

■ EXEMPLO 10 

Uma empresa de pequeno porte levantou a idade de seus funcionarios, conforme mostra a Tabela 2.16. 
Construa um grafico de ramo-e-folhas. 


Tabela 2.16 Idade dos funcionarios. 


44 

60 

22 

49 

31 

58 

42 

63 

33 

37 

54 

55 

40 

71 

55 

62 

35 

45 

59 

54 

50 

51 

24 

31 

40 

73 

28 

35 

75 

48 


■ SOLU^AC) 

Para constru^ao do grafico de ramo-e-folhas, aplicaremos os quatro passos descritos anteriormente: 
Passo 1: Inicialmente, devemos ordenar os dados em forma crescente, conforme mostra a Tabela 2.17. 


Tabela 2.17 Idade dos funcionarios em ordem crescente. 


22 

24 

28 

31 

31 

33 

35 

35 

37 

40 

40 

42 

44 

45 

48 

49 

50 

51 

54 

54 

55 

55 

58 

59 

60 

62 

63 

71 

73 

75 


Passo 2: O passo seguinte para a constru^ao de um grafico de ramo-e-folhas e a defini^ao do numero de digitos 
iniciais da observa^ao que ira compor o ramo. Os digitos complementares irao compor a folha. Nesse exemplo, 
todas as observa^oes sao compostas por dois digitos; os ramos correspondem as dezenas e as folhas correspondem 
as unidades. 
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Passo 3: O proximo passo consiste na construnao dos ramos. PelaTabela 2.17, podemos verificar que existem 
observances que iniciam com as dezenas 2, 3, 4, 5, 6 e 7 (ramos). O ramo com maior frequencia eo 5 (8 obser¬ 
vances), sendo possivel representar todas as suas folhas em uma unica linha. Logo, teremos uma unica linha por 
ramo. Os ramos sao entao representados em uma unica coluna do lado esquerdo da linha vertical, em ordem 
crescente, conforme mostra a Figura 2.11. 

2 

3 

4 

5 

6 

7 

Figura 2.11 Construnao dos ramos para o Exemplo 10. 


Passo 4: E, por fim, colocaremos as folhas correspondentes a cada ramo, do lado direito da linha vertical. As fo¬ 
lhas sao representadas em ordem crescente ao longo de varias colunas. Por exemplo, o ramo 2 contem as folhas 2, 
4 e 8; ja o ramo 5 contem as folhas 0,1,4, 4, 5, 5, 8 e 9, representadas ao longo de 8 colunas. Se esse ramo fosse 
dividido em duas linhas, a primeira linha conteria as folhas de 0 a 4 e a segunda linha as folhas de 5 a 9. 

A Figura 2.12 apresenta o grafico de ramo-e-folhas para o Exemplo 10. 


2 

2 

4 

8 





3 

1 

1 

3 

5 

5 

7 


4 

0 

0 

2 

4 

5 

8 
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5 

0 

1 

4 

4 

5 

5 

8 9 

6 

0 
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7 

1 

3 

5 






Figura 2.12 Grafico de ramo-e-folhas para o Exemplo 10. 


■ EXEMPLO 11 

A temperatura media, em graus Celsius, registrada durante os ultimos 40 dias em Porto Alegre esta listada na 
Tabela 2.18. Construa o grafico de ramo-e-folhas para o Exemplo 11. 


Tabela 2.18 Temperatura media em graus Celsius. 


8,5 

13,7 

12,9 

9,4 

11,7 

19,2 

12,8 

9,7 

19,5 

11,5 

15,5 

16,0 

20,4 

17,4 

18,0 

14,4 

14,8 

13,0 

16,6 

20,2 

17,9 

17,7 

16,9 

15,2 

18,5 

17,8 

16,2 

16,4 

18,2 

16,9 

18,7 

19,6 

13,2 

17,2 

20,5 

14,1 

16,1 

15,9 

18,8 

15,7 


■ SOLUgAO 

Aplicaremos novamente os quatro passos para a construnao do grafico de ramo-e-folhas, desta vez conside- 
rando variaveis continuas. 

Passo 1: Inicialmente, ordenaremos os dados em forma crescente, como mostra a Tabela 2.19. 


Tabela 2.19 Temperatura media em ordem crescente. 


8,5 

9,4 

9,7 

11,5 

11,7 

12,8 

12,9 

13,0 

13,2 

13,7 

14,1 

14,4 

14,8 

15,2 

15,5 

15,7 

15,9 

16,0 

16,1 

16,2 

16,4 

16,6 

16,9 

16,9 

17,2 

17,4 

17,7 

17,8 

17,9 

18,0 

18,2 

18,5 

18,7 

18,8 

19,2 

19,5 

19,6 

20,2 

20,4 

20,5 
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Passo 2: Neste exemplo, as folhas correspondem ao ultimo digito; os digitos restantes (a esquerda) correspon- 
dem aos ramos. 

Passos 3 e 4: Os ramos variam de 8 a 20. O ramo com maior frequencia e o 16 (7 observa^oes), de modo que 
suas folhas podem ser representadas em uma unica linha. Para cada ramo, colocam-se as respectivas folhas. A 
Figura 2.13 apresenta o grafico de ramo-e-folhas para o Exemplo 11. 


8 

9' 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 


5 

4 7 

5 7 

8 9 

0 2 7 

1 4 8 

2 5 7 9 

0 1 2 4 6 9 9 

2 4 7 8 9 

0 2 5 7 8 

2 5 6 

2 4 5 


Figura 2.13 Grafico de ramo-e-folhas para o Exemplo 11 . 


23.2.5. Boxplot ou diagrama de caixa 

O boxplot (diagrama de caixa) e uma representa^ao grafica de cinco medidas de posi^ao ou localiza^ao de 
determinada variavel: valor minimo, primeiro quartil (Q^segundo quartil (Q 2 ) ou mediana (Md), terceiro quartil 
(Q 3 ) e valor maximo. A partir de uma amostra ordenada, a mediana corresponde a posi^ao central e os quartis as 
subdivisoes da amostra em quatro partes iguais, cada uma contendo 25% dos dados. 

Dessa forma, o primeiro quartil (Q t ) descreve 25% dos primeiros dados (ordenados em forma crescente); o 
segundo quartil corresponde a mediana (50% dos dados ordenados situam-se abaixo dela e os 50% restantes aci- 
ma dela) e o terceiro quartil (Q 3 ) corresponde a 75% das observa^oes. A medida de dispersao proveniente dessas 
medidas de localiza^ao e a chamada amplitude interquartil (AIQ) ou intervalo interquartil (IQR) e cor¬ 
responde a diferen^a entre Q 3 e Q 1 . 

A utiliza^ao do grafico permite avaliar a simetria e distribui^ao dos dados, e tambem propicia a perspectiva 
visual da presen^a ou nao de dados discrepantes (outliers univariados), uma vez que esses dados encontram-se aci- 
ma dos limites superior e inferior. A representa^ao do diagrama pode ser visualizada na Figura 2.14. 



Figura 2.14 Boxplot 






38 Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata* 


Os calculos da mediana e do primeiro e terceiro quartis e a investiga^ao sobre a existencia de outliers univa- 
riados serao estudados nas se^oes 2.4.1.1, 2.4.1.2 e 2.4.1.3, respectivamente. Nas se^oes 2.6.3 e 2.7, estudaremos 
como construir o diagrama de caixa nos softwares SPSS e Stata, respectivamente, a partir de um exemplo pratico. 

2.4. MEDIDAS-RESUMO MAIS USUAIS EM ESTATI'STICA DESCRITIVA UNIVARIADA 

As informa^oes contidas em um conjunto de dados podem ser resumidas por meio de medidas numericas 
adequadas, chamadas medidas-resumo. 

As medidas-resumo mais utilizadas em estatistica descritiva univariada tern como objetivo principal a repre- 
senta^ao do comportamento da variavel em estudo por meio de seus valores centrais e nao centrais, suas disper- 
soes ou formas de distribui^ao dos seus valores em torno da media. 

As medidas-resumo que serao estudadas neste capitulo sao: medidas de posi^ao ou localiza^ao (medidas de 
tendencia central e medidas separatrizes), medidas de dispersao ou variabilidade e medidas de forma, como assi- 
metria e curtose. 

Essas medidas sao calculadas para variaveis metricas, ou quantitativas. A unica exce^ao e em rela^ao a mo- 
da, que e uma medida de tendencia central que fornece o valor mais frequente de determinada variavel, podendo 
assim tambem ser calculada para variaveis nao metricas ou qualitativas. 

2.4.1 • Medidas de posi^ao ou localiza^ao 

Essas medidas fornecem valores que caracterizam o comportamento de uma serie de dados, indicando a posi- 
$ao ou localiza^ao dos Idados em rela^ao ao eixo dos valores assumidos pela variavel ou caracteristica em estudo. 

As medidas de posi^ao ou localiza^ao sao subdivididas em medidas de tendencia central (media, mediana e 
moda) e medidas separatrizes (quartis, decis e percentis). 

2.4.7.7. Medidas de tendencia central 

As medidas de tendencia central mais utilizadas referem-se a media aritmetica, a mediana e a moda. 


2.4.1.1.1 Media aritmetica 

A media aritmetica pode ser a medida representativa de uma popula^ao com N elementos, representada pela 
letra grega /i, ou a medida representativa de uma amostra com n elementos, representada por X. 


CASOI 


Media aritmetica simples para dados discretos e contmuos nao agrupados 


A media aritmetica simples, ou simplesmente media, e a soma do total de valores de determinada variavel 
(discreta ou continua) dividida pelo numero total de observances. Assim, a media aritmetica amostral de deter¬ 
minada variavel X (X) e: 




X = 


»=i 

n 


( 2 . 1 ) 


em que n e o numero total de observances no conjunto de dados e X h para i = 1,..., «, representa cada um dos 
valores da variavel X. 


M EXEMPLO 12 

Calcule a media aritmetica simples para os dados daTabela 2.20 referentes as notas dos alunos de pos-gradua- 
nao na disciplina de Metodos Quantitativos. 


Tabela 2.20 Notas dos alunos. 


5,7 

6,5 

6,9 

8,3 

8,0 

4,2 

6,3 

7,4 

5,8 

6,9 


m SOLU£AO 

A media e simplesmente calculada como a soma de todos os valores da Tabela 2.20 dividida pelo numero 
total de observances, conforme segue: 
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-= 5,7 + 6,5 + ... + 6,9 = 

10 

A fun<pao MEDIA do Excel calcula a media aritmetica simples do conjunto de valores selecionados. Suponha 
que os dados daTabela 2.20 estejam dispomveis da celula A1 ate a celula A10. Para o calculo da media, basta in- 
serir a expressao =MEDIA(A1:A10). 

Outra forma de calcular a media pelo Excel, assim como outras medidas descritivas como mediana, moda, 
variancia, desvio-padrao, erro-padrao, assimetria e curtose que serao estudadas ainda neste capitulo, e pelo suple- 
mento Ferramentas de Analise (se^ao 2.5). 


CAS0 2 


Media aritmetica ponderada para dados discretos e continuos nao agrupados 

No calculo da media aritmetica simples, todas as ocorrencias tern a mesma importancia ou peso. Quando se 
deseja atribuir diferentes pesos (p t ) para cada valor i da variavel X, utiliza-se a media aritmetica ponderada: 




X = 


_ 1=1 


.Pi 


i =1 


( 2 . 2 ) 


Se os pesos estiverem expressos em termos percentuais (peso relativo — pr), a expressao (2.2) resume-se a: 


* = 2 'Xcpr, 

1=1 


(2.3) 


■ EXEMPLO 13 

Na escola da Vanessa, a media anual de cada materia e calculada a partir das notas obtidas ao longo dos quatro 
bimestres, com os respectivos pesos: 1, 2, 3 e 4. ATabela 2.21 apresenta as notas de matematica da aluna em cada 
bimestre. Calcule a media anual de Vanessa na materia. 


Tabela 2.21 Notas de matematica da aluna Vanessa. 


Periodo 

Nota 

Peso 

1° Bimestre 

4,5 

1 

2° Bimestre 

7,0 

2 

3° Bimestre 

5,5 

3 

4° Bimestre 

6,5 

4 


■ SOLU^AO 

A media anual e calculada utilizando o criterio de media aritmetica ponderada. Aplicando a expressao (2.2) 
para os dados daTabela 2 . 21 , obtemos: 


— 4,5x1+7,0x2+5,5x3 + 6,5x4 

X = - =6,1 

1+2+3+4 


■ EXEMPLO 14 

Uma carteira de a^oes e composta por cinco ativos.ATabela 2.22 apresenta o retorno medio de cada ativo no 
ultimo mes, assim como a respectiva porcentagem investida. Determine o retorno medio da carteira. 




40 Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata 


Tabefa 2.22 Retorno de cada a$ao e porcentagem investida. 


Ativo 

Retorno (%) 

% Investimento 

Banco do Brasil ON 

1,05 

10 

Bradesco PN 

0,56 

25 

Eletrobras PNB 

0,08 

15 

Gerdau PN 

0,24 

20 

Vale PN 

0,75 

30 


■ SOLU^AO 

O retorno medio da carteira (%) corresponde ao somatorio dos produtos entre o retorno medio de cada ativo 
(%) e a respectiva porcentagem investida e, utilizando expressao (2.3), temos que: 

X = 1,05 x 0,10 + 0,56 x 0,25 + 0,08 x 0,15 + 0,24 x 0,20+0,75 x 0,30=0,53% 


CAS0 3 


Media aritmetica para dados discretos agrupados 


Quando os valores discretos de X { se repetem, os dados sao agrupados em uma tabela de frequencia. Para o 
calculo da media aritmetica, utilizaremos o mesmo criterio da media ponderada, porem, os pesos para cada X { 
passam a ser representados por frequences absolutas (F t ) e, ao inves de n observa^oes com n diferentes valores, 
teremos n observa^oes com m diferentes valores (dados agrupados): 


m m 

V-Jsl --_i=i- 



i=1 


(2.4) 


Se a frequencia dos dados estiver expressa em termos de porcentagem relativa a frequencia absoluta (frequen¬ 
ce relativa - Fr), a expressao (2.4) resume-se a: 


X = J^X r Fr, 


(2.5) 


■ EXEMPLO 15 

Uma pesquisa de satisfa^ao com 120 entrevistados avaliou o desempenho de uma seguradora de saude, por 
meio das notas atribuidas que variam de 1 a 10. Os resultados da pesquisa sao apresentados naTabela 2.23. Calcule 
a media aritmetica para o Exemplo 15. 


Tabela 2.23 Tabela de frequencia absoluta. 


Notas 

Numero de entrevistados 

1 

9 

2 

12 

3 

15 

4 

18 

5 

24 

6 

26 

7 

5 

8 

7 

9 

3 

10 

1 
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■ soLugAo 

A media aritmetica do Exemplo 15 e calculada a partir da expressao (2.4): 


—_ 1x9+2x12+•••+9x3 + 10x1 
X " 120 


=4,62 


CAS0 4 


Media aritmetica para dados contmuos agrupados em classes 


Para o c£culo da media aritmetica simples, da media aritmetica ponderada e da media aritmetica para dados 
discretos agrupados, X { representa cada valor i da variavel X. 

Ja para dados contmuos agrupados em classes, cada classe nao tern valor unico definido, e sim um conjunto de 
valores. Para que a media aritmetica possa ser calculada nesse caso, assume-se que X { e o ponto medio ou central 
da classe i (i = 1,..., fe), de modo que as expressoes (2.4) ou (2.5) sao reescritas em fun^ao do numero de classes (fe): 

k k 

X X < IX+ 



1=1 


( 2 . 6 ) 


X = ^X,Fr ( 


(2.7) 


■ EXEMPLO 16 

ATabela 2.24 apresenta as classes de salarios pagos aos funcionarios de determinada empresa e suas respectivas 
frequencias absolutas e relativas. Calcule o salario medio. 

Tabela 2.24 Classes de salarios (R$1.000,00) e respectivas frequencias absolutas e relativas. 


Classe 

Ft 

Fr { (%) 

1 1-3 

240 

17,14 

3 [-5 

480 

34,29 

5 [-7 

320 

22,86 

7 f-9 

150 

10,71 

9 1-11 

130 

9,29 

11 [-13 

80 

5,71 

Soma 

1.400 

100 


■ SOLU^AO 

Considerando X t o ponto medio da classe i e aplicando a expressao (2.6), temos que: 


—_ 2x240 + 4x480 + 6x320 + 8x150 + 10x130+12x80 

1.400 


= 5,557 


ou ainda, pela expressao (2.7): 

X=2x0,1714+4x0,3429+-*‘+10x0,0929+12x0,0571=5,557 
Portanto, o salario medio e de R$ 5.557,14. 


2.4.1.1.2. Medians 

A mediana ( Md) e uma medida de localiza^ao do centro da distribui^ao de um conjunto de dados ordenados 
de forma crescente. Seu valor separa a serie em duas partes iguais, de modo que 50% dos elementos sao menores 
ou iguais a mediana e os outros 50% sao maiores ou iguais a mediana. 
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CASOI 


Mediana para dados discretos e conti'nuos nao agrupados 

A mediana da variavel X (discreta ou continua) pode ser calculada da seguinte forma: 


Md(X) = 


X. +X, 


(!)■ 


-, s e« for par 


X 


(»+ 1 ) 


, se n for impar 


(2.8) 


em que n e o numero total de observances e X t < ... < X n9 tal que X t e a menor observa^ao ou o valor do pri- 
meiro elemento eX tt ea maior observa^ao ou o valor do ultimo elemento. 


■ EXEMPLO 17 

ATabela 2.25 apresenta a produ^ao mensal de esteiras de determinada empresa em determinado ano. Calcule 
a mediana. 


Tabela 2.25 Produ^ao mensal de esteiras em determinado ano. 


Mes 

Produ^ao (unidades) 

Jan 

210 

Fev 

180 

Mar 

203 

Abr 

195 

Mai 

208 

Jun 

230 

Jul 

185 

Ago 

190 

Set 

200 

Out 

182 

Nov 

205 

Dez 

196 


■ solu^Ao 

Para o ealculo da mediana, as observances sao ordenadas em forma crescente. Temos, portanto, a ordena^ao 
das observa^oes e as respectivas posi^oes: 

180 < 182 < 185 < 190 < 195 < 196 < 200 < 203 < 205 < 208 < 210 < 230 

1 ° 2° 3° 4° 5° 6 ° 7° 8 ° 9° 10° 11° 12° 

A mediana sera a media entre o sexto e o setimo elemento, uma vez que n e par, ou seja: 

X 12 12^ 


2 


196 + 200 

Md= - 

2 


= 198 


O Excel calcula a mediana de um conjunto de dados por meio da fun^ao MED. 

Note que a mediana nao considera a ordem de grandeza dos valores da variavel original. Se, por exemplo, o 
maior valor fosse 400 ao inves de 230, a mediana seria exatamente a mesma, porem, com uma media muito mais alta. 

A mediana tambem e conhecida por 2° quartil (Q 2 ), 50° percentil (P 50 ) ou 5° decil (D 5 ).Essas defini^oes serao 
estudadas com mais detalhe nas proximas se^oes. 




Estatistica Descritiva Univariada 43 


CASO 2 


Mediana para dados discretos agrupados 


Aqui, o calculo da mediana e semelhante ao caso anterior, porem, os dados estao agrupados em uma tabela 
de distribui^ao de frequencias. 

Analogamente ao caso 1, se n for impar, a posigao do elemento central sera (n + l)/2. Podemos verificar na 
coluna de frequencia acumulada o grupo que contem essa posi^ao e, consequentemente, seu valor correspon- 
dente na primeira coluna (mediana). 

Se n for par, verifica(m)-se o(s) grupo(s) que contem as posi^oes centrais n/2 e ( n/2 ) + 1 na coluna de fre¬ 
quencia acumulada. Se ambas as posigoes corresponderem ao mesmo grupo, obtem-se diretamente seu valor cor- 
respondente na primeira coluna (mediana). Se cada posi^ao corresponder a um grupo distinto, a mediana sera a 
media entre os valores correspondentes definidos na primeira coluna. 


■ EXEMPLO 18 

A Tabela 2.26 apresenta o numero de dormitorios de 70 imoveis em um condommio fechado localizado na 
regiao metropolitana de Sao Paulo, e suas respectivas frequencias absolutas e acumuladas. Calcule a mediana. 


Tabela 2.26 Distribui^ao de frequencias. 


Numero de dormitorios 

F< 

F* c 

1 

6 

6 

2 

13 

19 

3 

20 

39 

4 

15 

54 

5 

7 

61 

6 

6 

67 

7 

3 

70 

Soma 

70 



Como n e par, a mediana sera a media entre os valores que ocupam as posi^oes n/2 e (n/2) + 1, ou seja: 

X M +X, 


Md=- 


+i 


. ^35 + ^36 


Pela Tabela 2.26, podemos verificar que o terceiro grupo contem todos os elementos entre as posi^oes 20 e 
39 (incluindo 35 e 36), cujo valor correspondente e 3. Portanto, a mediana e: 

3+3 

Md= -= 3 


CASO 3 


Mediana para dados contmuos agrupados em classes 

Para variaveis continuas agrupadas em classes em que os dados estao representados em uma tabela de distri- 
bui^ao de frequencias, aplicam-se os seguintes passos para o calculo da mediana: 


Passo 1: Calcular a posi^ao da mediana, independente se n e par ou impar, por meio da seguinte expressao: 

Pos (Md) = n/2 (2.9) 

Passo 2: Identificar a classe que contem a mediana (classe mediana) a partir da coluna de frequencia acumulada. 


Passo 3: Calcular a mediana pela seguinte expressao: 


—— F 


ac(Md-l) 


Md — LI + - 


J 


xA 


Md 


■ Md 


(2.10) 
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em que: 

U Md = limite inferior da classe mediana; 

F' M d ~ frequencia absoluta da classe mediana; 

F ac (Md- 1 ) = frequencia acumulada da classe anterior a classe mediana; 

A Md = amplitude da classe mediana; 
n — numero total de observa^oes. 

■ EXEMPLO 19 

Considere os dados do Exemplo 16 referentes as classes de salarios pagos aos funcionarios de uma empresa e 
suas respectivas frequences absolutas e acumuladas (Tabela 2.27). Calcule a mediana. 


Tabela 2.27 Classes de salarios (R$1.000,00) e respectivas frequencias absolutas e acumuladas. 


Classe 

F { 

F«c 

1 |-3 

240 

240 

3 |-5 

480 

720 

5 |-7 

320 

1.040 

7 [-9 

150 

1.190 

9 [-11 

130 

1.320 

11 1-13 

80 

1.400 

Soma 

1.400 



■ SOLU^AO 

No caso de dados continuos agrupados em classes, aplicaremos os seguintes passos para o calculo da mediana: 
Passo 1: Inicialmente, calculamos a posi^ao da mediana: 


Pos(Mi ) = ~ = = 700 

Passo 2: Pela coluna de frequencia acumulada, podemos verificar que a posigao da mediana pertence a segunda 
classe (3 |- 5). 


Passo 3: Calculo da mediana: 


Md — LI Md + 


f n ^ 

~~ ^ac(Md-l) 

V 2 J 


- Md 


XA 


Md 


em que: 

LImj ~ 3 F Md = 480 
Portanto, temos que: 

(700-240) 


Fac{Md - 1 ) ~ 2 40 A ud = 2 n — 1.400 


Md=3+- 


480 


x 2=4,916 (RS4.916,67) 


2.4.1.1.3. Moda 

A moda (Mo) de uma serie de dados corresponde a observa^ao que ocorre com maior frequencia. A moda e 
a unica medida de posi^ao que tambem pode ser utilizada para variaveis qualitativas, ja que essas variaveis permi- 
tem apenas o calculo de frequencias. 
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CAS01 


Moda para dados nao agrupados 


Considere um conjunto de observances X l9 X 2 , ..., X n de determinada variavel. A moda e o valor que aparece 
com maior frequencia. 

O Excel retorna a moda de um conjunto de dados por meio da funnao MODO. 


■ EXEMPLO 20 

A produ^ao de cenouras em determinada empresa e composta por cinco etapas, incluindo a fase de acaba- 
mento. A Tabela 2.28 apresenta o tempo medio de processamento (segundos) nesta fase para 20 observances. 
Calcule a moda. 


Tabela 2.28 Tempo de processamento da cenoura na fase de acabamento (em segundos). 


45,0 

44,5 

44,0 

45,0 

46,5 

46,0 

45,8 

44,8 

45,0 

46,2 

44,5 

45,0 

45,4 

44,9 

45,7 

46,2 

44,7 | 

45,6 

46,3 

44,9 


■ SOLU^AO 

A moda e 45,0 que e o valor mais frequente do conjunto de observanoes da Tabela 2.28. Esse valor poderia 
ser determinado diretamente pelo Excel utilizando a funnao MODO. 


CAS0 2 


Moda para dados qualitativos ou discretos agrupados 

Para dados qualitativos ou quantitativos discretos agrupados em uma tabela de distribuinao de frequences, o 
calculo da moda pode ser obtido diretamente da tabela; e o elemento com maior frequencia absoluta. 


■ EXEMPLO 21 

Uma emissora de TV entrevistou 500 telespectadores buscando analisar suas preferencias por categorias de 
interesse. O resultado da pesquisa esta listado na Tabela 2.29. Calcule a moda. 


Tabela 2.29 Preferencias dos telespectadores por categorias de interesse. 


Categorias de interesse 

F, 

Filmes 

71 

Novelas 

46 

Jornalismo 

90 

Humor 

98 

Esporte 

120 

Shows 

35 

Variedades 

40 

Soma 

500 


■ SOLU^AO 

PelaTabela 2.29, podemos verificar que a moda corresponde a categoria Esporte (maior frequencia absoluta). 
A moda e, portanto, a unica medida de posinao que tambem pode ser utilizada para variaveis qualitativas. 


CAS0 3 


Moda para dados continuos agrupados em classes 


Para dados continuos agrupados em classes, existem diversos procedimentos para o calculo da moda, como o 

metodo de Czuber e o metodo de King. 

O metodo de Czuber consiste nas seguintes etapas: 


Passo 1: Identificar a classe que contem a moda (classe modal), que e aquela com maior frequencia absoluta. 
Passo 2: Calcular a moda (Mo): 
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M°-LI Mo + 


^Mo F 'Mo -1 


em que: 

LI Mo = limite inferior da classe modal; 

F Mo — frequencia absoluta da classe modal; 

F Mo - i = frequencia absoluta da classe anterior a classe modal; 
A Mo + i = frequencia absoluta da classe posterior a classe modal; 
A Mo = amplitude da classe modal. 


( 2 . 11 ) 


■ EXEMPLO 22 

Um conjunto de dados continuos com 200 observances esta agrupado em classes com as respectivas frequen- 
cias absolutas, conforme mostra aTabela 2.30. Determine a moda utilizando o metodo de Czuber. 


Tabela 2.30 Dados continuos agrupados em classes e respectivas frequences. 


Classe 

Fi 

01 1-10 

21 

10 1-20 

36 

20 |-30 

58 

30 [-40 

24 

40 [-50 

19 

Soma 

200 


■ solu^Ao 

Considerando dados continuos agrupados em classes, podemos aplicar o metodo de Czuber para o calculo 
da moda: 


Passo 1: Pela Tabela 2.30, podemos verificar que a classe modal e a terceira (20 |- 30) ja que possui a maior fre¬ 
quencia absoluta. 

Passo 2: Calculo da moda (Mo): 


M° — L! Mo + 


Fmo F Mo -r 


^' Fmo (F Mo _ i + F Mo+1 ) 


-xA 


Mo 


em que: 


LL 


Mo 


- 20 


Portanto, temos que: 


Fmo 58 F Mo _i 36 A Mo+x 24 A Mo 10 

Mo= 20+--x 10 = 23,9 

2x58-(36 + 24) 


Ja o metodo de King consiste nas seguintes etapas: 

Passo 1: Identificar a classe modal (com maior frequencia absoluta). 


Passo 2: Calcular a moda (Mo) pela seguinte expressao: 

Mo = LI Mo + -- xA 

110 17 i p 

r Mo—\ T r Mo +1 

em que: 

LI Mo — limite inferior da classe modal; 

F Mo ~i = frequencia absoluta da classe anterior a classe modal; 

Fmo+i “ frequencia absoluta da classe posterior a classe modal; 

A Mo = amplitude da classe modal. 


( 2 . 12 ) 
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■ EXEMPLO 23 

Considere novamente os dados do exemplo anterior. Aplique o metodo de King para determinar a moda. 

■ SOLU^AO 

Pelo Exemplo 22, vimos que: 


LImo 20 

Aplicando a expressao (2.12): 


Mo-LI Mo + 


■ Mo +1 


= 24 


Fmo- i = 36 




Fmo-i + F Mo +i 


xA M o = 20 + 


24 


36 + 24 


-Xl0 = 24 


2.4.1.2. Medidas separatrizes 

Segundo Bussab e Morettin (2011), a utiliza^ao apenas de medidas de tendencia central pode nao ser ade- 
quada para representar um conjunto de dados, uma vez que esses tambem sao afetados por valores extremos e, 
apenas com o uso destas medidas, nao e possivel que o pesquisador tenha uma ideia clara de como a dispersao e 
a simetria dos dados se comportam. Como alternativa, podem ser utilizadas medidas separatrizes, como quartis, 
decis e percentis. O 2 ° quartil (Q 2 ), 5° decil (D 5 ) ou 50° percentil (P 50 ) correspondem a mediana, sendo, portan- 
to, medidas de tendencia central. 

Quartis 

Os quartis ( Q i} i— 1, 2, 3) sao medidas de posi^ao que dividem um conjunto de dados, ordenados em forma 
crescente, em quatro partes com dimensoes iguais. 


Min Q t Md= Q 2 Q 3 Max 

Assim, o 1° Quartil (Qj ou 25° percentil) indica que 25% dos dados sao inferiores a ou que 75% dos da¬ 
dos sao superiores a Q a . 

O 2° Quartil (Q 2 ou 5° decil ou 50° percentil) corresponde a mediana, indicando que 50% dos dados sao 
inferiores ou superiores a Q 2 . 

Ja o 3° Quartil (Q 3 ou 75° percentil) indica que 75% dos dados sao inferiores a Q 3 ou que 25% dos dados 
sao superiores a Q 3 . 

Decis 

Os decis (D h i— 1,2, ..., 9) sao medidas de posi^ao que dividem um conjunto de dados, ordenados em for¬ 
ma crescente, em 10 partes iguais. 

I- \ -1- 1 -^-1-1- 1 - 1 -1- 1 

Min D 1 D 2 D 3 D 4 D 5 D e D 7 D s D 9 Max 

Md 

Desta forma, o 1° decil (D x ou 10° percentil) indica que 10% dos dados sao inferiores a D a ou que 90% dos 
dados sao superiores a D a . 

O 2° decil (D 2 ou 20° percentil) indica que 20% dos dados sao inferiores a D 2 ou que 80% dos dados sao 
superiores a D 2 . 

E assim sucessivamente, ate o 9° decil (D 9 ou 90° percentil), que indica que 90% dos dados sao inferiores a 
D 9 ou que 10% dos dados sao superiores a D 9 . 

Percentis 

Os percentis ( P i} i — 1,2,..., 99) sao medidas de posi^ao que dividem um conjunto de dados, ordenados em 
forma crescente, em 100 partes iguais. 
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Desta maneira, o 1° percentil (P x ) indica que 1% dos dados e inferior a ou que 99% dos dados sao supe- 
riores a P x . 

O 2° percentil (P 2 ) indica que 2% dos dados sao inferiores a P 2 ou que 98% dos dados sao superiores a P 2 . 
E assim sucessivamente, ate o 99° percentil (P 99 ), que indica que 99% dos dados sao inferiores a P 99 ou que 
1 % dos dados e superior a P 99 . 


CASOI 


Quartis, decis e percentis para dados discretos e contmuos nao agrupados 

Se a posi^ao do quartil, decil ou percentil desejado for um numero inteiro ou estiver exatamente entre duas 
posi^oes, o calculo do respectivo quartil, decil ou percentil e facilitado. Porem, isso nem sempre acontece (ima¬ 
gine uma amostra com 33 elementos cujo objetivo e calcular o 67° percentil), de modo que existem varios me- 
todos propostos para esse calculo que levam a resultados proximos, mas nao identicos. 

Apresentaremos um metodo simples e generico que pode ser aplicado para o calculo de qualquer quartil, de¬ 
cil ou percentil de ordem i, considerando dados discretos e contmuos nao agrupados: 


Passo 1: Ordenar as observa^oes em forma crescente. 

Passo 2: Determinar a posi^ao do quartil, decil ou percentil desejado de ordem i: 


Quartil —» Pos(Q.) = 


-Xi 

4 


+-, i=l, 2,3 
2 


Decil —» Pos(D,)= 


Percentil —> Pos(P, ) = 


— Xi 

10 


+-, i = l, 2,...,9 
2 


100 


■Xi 


+-, i=l, 2,...,99 
2 


(2.13) 

(2.14) 

(2.15) 


Passo 3: Calcular o valor do quartil, decil ou percentil correspondente a respectiva posi^ao. 

Suponha que Pos(Q 1 )=3,75, isto e, o valor de Qi esta entre a 3 a e 4 a posi^ao (75% mais proximo da 4 a posi^ao 
e 25%, da 3 a posi^ao). Desta forma, o calculo de Q 1 sera a soma do valor correspondente a 3 a posi^ao multipli- 
cado por 0,25 com o valor correspondente a 4 a posi^ao multiplicado por 0,75. 


■ EXEMPLO 24 

Considere os dados do Exemplo 20 referentes ao tempo medio de processamento da cenoura na fase de aca- 
bamento, conforme especificado naTabela 2.28. Determine Q 1 (1° quartil), Q 3 (3° quartil), D 2 (2° decil) e P 6 4 
(64° percentil). 


Tabela 2.28 Tempo de processamento da cenoura na fase de acabamento (em segundos). 


45,0 

44,5 

44,0 

45,0 

46,5 

46,0 

45,8 

44,8 

45,0 

46,2 

44,5 

45,0 

45,4 

44,9 

45,7 

46,2 

44,7 

45,6 

46,3 

44,9 


■ SOLU^AO 

Para dados contmuos nao agrupados, devemos aplicar os seguintes passos para determina^ao dos quartis, decis 
e percentis desejados: 

Passo 1: Ordenar as observa^oes em forma crescente. 


1° 

2° 

3° 

4° 

5° 

6° 

7° 

8° 

9° 

10° 

44,0 

44,5 

44,5 

44,7 

44,8 

44,9 

44,9 

45,0 

45,0 

45,0 

11° 

12° 

13° 

14° 

15° 

16° 

17° 

18° 

19° 

20° 

45,0 

45,4 

45,6 

45,7 

45,8 

46,0 

46,2 

46,2 

46,3 1 

46,5 
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Passo 2: Calculo das posigoes de Q 1? Q 3 , D 2 e 


64 * 


a) Pos(Qj) = 

b) Pos(Q 3 ) = 

c) Pos(Q 2 ) = 

d) Pos(P 64 ) = 


20 , 

—xl 

4 


20 


x3 


20 „ 

—x2 

10 


+—=5,5 

2 


+-=15,5 

2 


+-=4,5 

2 


20 

100 


x64 


+ -=13,3 

2 


Passo 3: Calculo de Q 1? Q 3 , D 2 e P M : 

a) Pos(Q 1 )=5,5 significa que seu valor correspondente esta 50% proximo da posigao 5 e 50%, da posi^ao 6, ou 
seja, o calculo de e simplesmente a media dos valores correspondentes as duas posi^oes: 

44,8+44,9 = 

2 

b) Pos(Q 3 )=15,5 significa que o valor desejado esta entre as posiqoes 15 e 16 (50% proximo da 15 a posi^ao e 
50%, da 16 a posi^ao), de modo que Q 3 pode ser calculado como: 


q 3 = 


45,8+46 


= 45,9 


c) Pos(D 2 ) = 4,5 significa que o valor desejado esta entre as posi^oes 4 e 5, de modo que D 2 pode ser calculado 
como: 

44,7 + 44,8 


D 0 =- 


-=44,75 


d) Pos(P 64 )=13,3 significa que o valor desejado esta 70% mais proximo da posi^ao 13 e 30%, da posi^ao 14, de 
modo que P 6 4 pode ser calculado como: 

P 64 = (0,70 x 45,6) + (0,30 x 45,7) = 45,63 


Interpreta^ao 

Q a = 44,85 indica que, em 25% das observances (as 5 primeiras observances listadas no passo 1), o tempo de 
processamento da cenoura na fase de acabamento e inferior a 44,85 segundos, ou que em 75% das observances 
(as 15 observanoes restantes), o tempo de processamento e superior a 44,85. 

Q 3 = 45,9 indica que, em 75% das observanoes (15 delas), o tempo de processamento e inferior a 45,9 segun¬ 
dos, ou que em 5 observanoes, o tempo de processamento e superior a 45,9. 

D 2 = 44,75 indica que, em 20% das observanoes (4 delas), o tempo de processamento e inferior a 44,75 se¬ 
gundos, ou que em 80% das observanoes (16 delas), o tempo de processamento e superior a 44,75. 

Pe4 = 45,63 indica que, em 64% das observanoes (12,8 delas), o tempo de processamento e inferior a 45,63 
segundos, ou que em 36% das observanoes (7,2 delas) o tempo de processamento e superior a 45,63. 

O Excel calcula o quartil de ordem i {i — 0, 1, 2, 3, 4) por meio da funnao QUARTIL. Como argumentos 
da funnao, devemos definir a matriz ou conjunto de dados em que desejamos calcular o respectivo quartil (nao 
precisa estar em ordem crescente), alem do quarto desejado (valor minimo = 0; 1° quartil = 1; 2° quartil = 2, 3° 
quartil = 3; valor maximo = 4). 

O fe-esimo percentil (k — 0,..., 1) tambem pode ser calculado no Excel por meio da funnao PERCENTIL. 
Como argumentos da funnao, devemos definir a matriz desejada, alem do valor de k (por exemplo, no caso do 
P 64 ,fe = 0,64). 

O calculo dos quartis, decis e percentis pelos softwares estatisticos SPSS e Stata sera demonstrado nas senoes 
2.6 e 2.7, respectivamente. 
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Estes softwares utilizam dois metodos para o calculo de quartis, decis ou percentis. Um deles e chamado 
Tukey’s Hinges e corresponde ao metodo utilizado neste livro. O outro refere-se a Media Ponderada (Weighted 
Average Method ), cujos calculos sao mais complexos. Ja o Excel implementa outro algoritmo que chega a resul- 
tados proximos. 


CAS0 2 


Quartis, decis e percentis para dados discretos agrupados 


Aqui, o calculo dos quartis, decis e percentis e semelhante ao caso anterior, porem, os dados estao agrupados 
em uma tabela de distribui^ao de frequences. 

Na tabela de distribui^ao de frequencias, os dados devem estar ordenados de forma crescente com as respec- 
tivas frequencias absolutas e acumuladas. Primeiro, devemos determinar a posi^ao do quartil, decil ou percentil 
desejado de ordem i por meio das expressoes (2.13), (2.14) ou (2.15), respectivamente. Na sequencia, a partir da 
coluna de frequencia acumulada, devemos verificar o(s) grupo(s) que contem essa posi^ao. Se a posi^ao for um 
numero discreto, seu valor correspondente e obtido diretamente na primeira coluna. Se a posi^ao for um numero 
fracionario, por exemplo, 2,5, porem, se tanto a 2 a como a 3 a posi^ao pertencerem ao mesmo grupo, seu respec¬ 
tive valor tambem sera obtido diretamente. Por outro lado, se a posi^ao for um numero fracionario, por exem¬ 
plo 4,25, e as posi^oes 4 e 5 pertencerem a grupos diferentes, devemos calcular a soma do valor correspondente 
a 4 a posi^ao multiplicado por 0,75 com o valor correspondente a 5 a posi^ao multiplicado por 0,25 (semelhante 
ao caso 1). 


■ EXEMPLO 25 

Considere os dados do Exemplo 18 referentes ao numero de dormitorios de 70 imoveis em um condominio 
fechado localizado na regiao metropolitana de Sao Paulo, e suas respectivas frequencias absolutas e acumuladas 
(Tabela 2.26). Calcule Q x , D 4 e P 96 . 


Tabela 2.26 Distribui^ao de frequencias. 


Numero de dormitorios 

F { 

Fac 

1 

6 

6 

2 

13 

19 

3 

20 

39 

4 

15 

54 

5 

7 

61 

6 

6 

67 

7 

3 ; 

70 

Soma 

70 



■ SOLU^AO 

Calcularemos as posi^oes de Q 1} D 4 e P96 por meio das expressoes (2.13), (2.14) e (2.15), respectivamente, e 
seus correspondentes valores: 


a) Pos(Q 1 ) = 




Pela Tabela 2.26, podemos verificar que a posi^ao 18 pertence ao segundo grupo (2 dormitorios), de modo 
que Qi“2. 


+ -=28,5 

2 

Pela coluna de frequencia acumulada, podemos verificar que as posif oes 28 e 29 pertencem ao terceiro grupo 
(3 dormitorios), de modo que D 4 — 3. 


b) Pos(D 4 ) = 


70 „ 
—x4 

10 
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c) Pos(P 96 ) = 


70 

100 


x96 



67,7 


ou seja, P 96 esta 70% mais proximo da posi^ao 68 e 30%, da posigao 67. Por meio da coluna de frequencia 
acumulada, verificamos que a posi^ao 68 pertence ao setimo grupo (7 dormitorios) e a posi^ao 67 ao sexto 
grupo (6 dormitorios), de modo que P96 pode ser calculado como: 


P 96 = (0,70 x 7) + (0,30 x 6) = 6,7. 


Interpreta^ao 

Q 1 = 2 indica que 25% dos imoveis tern menos do que 2 dormitorios ou que 75% dos imoveis tern mais do 
que 2 dormitorios. 

D 4 = 3 indica que 40% dos imoveis tern menos do que 3 dormitorios ou que 60% dos imoveis tern mais do 
que 3 dormitorios. 

P 9 6 = 6,7 indica que 96% dos imoveis tern menos do que 6,7 dormitorios ou que 4% dos imoveis tern mais 
do que 6,7 dormitorios. 


CASO 3 


Quartis, decis e percentis para dados contmuos agrupados em classes 

Para dados contmuos agrupados em classes em que os dados estejam representados em uma tabela de distri- 
bui^ao de frequences, devemos aplicar os seguintes passos para o calculo dos quartis, decis e percentis: 


Passo 1: Calcular a posi^ao do quartil, decil ou percentil desejado de ordem i por meio das seguintes expressoes: 


Quartil —> Pos(Q,) ““Xi, 

( = 1,2,3 

(2.16) 

Decil —> Pos(D, ) =— Xi, 

' 10 

t = l, 2,... ,9 

(2.17) 

Percentil —> Pos (P ) = -^— xi, 
100 

t = l, 2,...,99 

(2.18) 


Passo 2: Identificar a classe que contem o quartil, decil ou percentil desejado de ordem i (classe quartil, classe 
decil ou classe percentil) a partir da coluna de frequencia acumulada. 


Passo 3: Calcular o quartil, decil ou percentil desejado de ordem i por meio das seguintes expressoes: 

P°s(Q l )— P ac ( Qi -i) 


Quartil Q t —Uq. + 


xA q . i- 1,2,3 


em que: 

LIq. — limite inferior da classe quartil; 

F ac(Q r l) - frequencia acumulada da classe anterior a classe quartil; 
Fq. = frequencia absoluta da classe quartil; 

A q . = amplitude da classe quartil. 

Decil —>D t ~LI d . + 

em que: 

LI d . — limite inferior da classe decil; 

F ac{D r i) = frequencia acumulada da classe anterior a classe decil; 
F d = frequencia absoluta da classe decil; 

A d . = amplitude da classe decil. 


p°s m-F* 


<Di- 1) 


X A d . i= 1,2,...,9 


(2.19) 


( 2 . 20 ) 



52 Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata 


Percentil —> P. = LI P . + 


Pos (P i )~F c 




«c(Pi- 1) 


XA P . i= 1,2,.*.,99 


em que: 

Lip. — limite inferior da classe percentil; 

F ac(P r l) = frequencia acumulada da classe anterior a classe percentil; 
F P . = frequencia absoluta da classe percentil; 

A p . = amplitude da classe percentil. 


( 2 . 21 ) 


■ EXEMPLO 26 

Uma pesquisa sobre as condi^oes de saude de 250 pacientes coletou informa^oes sobre o peso deles. Os dados 
estao agrupados em classes, como mostra aTabela 2.31. Calcule o primeiro quartil, o setimo decil e o percentil 
de ordem 60. 


Tabela 2.31 Tabela de distribui^ao de frequences absolutas eacumuladas 
do peso dos pacientes agrupados em classes. 


Classe 


F„c 

50 1- 60 

18 

18 

60 1- 70 

28 

46 

70 |-80 

49 

95 

80 1- 90 

66 

161 

90 1-100 

40 

201 

100 I-110 

33 

234 

110 1- 120 

16 

250 

Soma 

250 



■ SOLUgAO 

Para o calculo de Q u D 7 e P60, aplicaremos os tres passos descritos, conforme segue: 

Passo 1: Calcularemos a posiipao do primeiro quartil, setimo decil e do 60° percentil por meio das expressoes 
(2.16), (2.17) e (2.18), respectivamente: 


1° Quartil -> Pos(Q 1 ) = -^—X 1 = 62,5 


7° Decil Pos(D 7 )= - x7=175 

7 10 


250 

60° Percentil Pos (PJ = - x 60 = 150 

60 100 

Passo 2: Idendficaremos a classe que contem Q u D 7 e P 60 a partir da coluna de frequencia acumulada da Tabela 2.31: 

Q 1 pertence a 3 a classe (70 (- 80) 

D 7 pertence a 5 a classe (90 |-100) 

Peo pertence a 4 a classe (80 |- 90) 

Passo 3: Calcularemos Q t , D 7 e P 60 a partir das expressoes (2.19), (2.20) e (2.21), respectivamente: 


( 


Ql = LI Qi + 


Pos(Q 1 )-F flc(Ql _ 1) 


'Qi 


x — 70+ 


^62,5-46 


49 


x 10=73,37 
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Dj — Lljy^ + 


P 60 ~ LI P 60 + 


Pos(D ? ) p ac(D-j—X) 


l Dj 


P°s (PJ~F a 


601 1 acj^Q- 1 ) 

F P60 


X Ajy^ =90 + 1 


x ^60 =80 + 


" 175—161 ^ 
„ 40 , 

150-95^ 


X10=93,5 


66 


X10=88,33 


J 


Interpreta^ao 

= 73,37 indica que 25% dos pacientes tem peso inferior a 73,37 kg ou que 75% dos pacientes tem peso 
superior a 73,37 kg. 

D 7 = 93,5 indica que 70% dos pacientes tem peso inferior a 93,5 kg ou que 30% dos pacientes tem peso su¬ 
perior a 93,5 kg. 

^60 = 88,33 indica que 60% dos pacientes tem peso inferior a 88,33 kg ou que 40% dos pacientes tem peso 
superior a 88,33 kg. 

2.4.1.3. Identificagao de existencia de outliers univariados 

Um conjunto de dados pode conter algumas observances que apresentam um grande afastamento das restan- 
tes ou sao inconsistentes. Estas observances sao designadas por outliers, ou ainda por valores atipicos, discrepantes, 
anormais ou extremos. 

Antes de decidir o que sera feito com as observanoes outliers, devemos ter o conhecimento das causas que le- 
varam a tal ocorrencia. Em muitos casos, essas causas podem determinar o tratamento adequado dos respectivos 
outliers. As principais causas estao relacionadas a erros de medi^ao, de execu^ao e variabilidade inerente aos ele- 
mentos da popula£ao. 

Existem varios metodos de identificanao de outliers: boxplot, modelos de discordancia, teste de Dixon, tes¬ 
te de Grubbs, Zscores, entre outros. No apendice do Capitulo 9 (Analise de Agrupamentos) sera apresentado 
um metodo bastante recente e eficiente para a detecnao de outliers multivariados (algoritmo Blocked Adaptative 
Computationally Efficient Outlier Nominators ). 

A existencia de outliers por meio do boxplot (a constru^ao do boxplot foi estudada na se^ao 2.3.2.5) e identifi- 
cada a partir da AIQ (amplitude interquartil), que corresponde a diferen^a entre o terceiro e primeiro quartil: 

AIQ = Q 3 -Qi (2.22) 

Note que AIQ e o comprimento da caixa. Quaisquer valores situados abaixo de Q 1 ou acima de Q 3 por 
mais 1,5-AIQ serao considerados outliers moderados e serao representados por circulos, podendo ainda ser 
aceitos na popula^ao com alguma suspeita. Assim, o valor X° de uma variavel e considerado um outlier mode- 
rado quando: 

X°< Qi - 1,5-AIQ (2.23) 

X°> Q 3 + 1,5-AIQ (2.24) 

Ou ainda, quaisquer valores situados abaixo de Q t ou acima de Q 3 por mais 3-AIQ serao considerados outliers 
extremos e serao representados por asteriscos. Assim, o valor X* de uma variavel e considerado um outlier ex- 
tremo quando: 

X* < Qj - 3.AIQ (2.25) 

X* > Q 3 + 3.AIQ 

A Figura 2.15 ilustra o boxplot com a identificanao de outliers. 


(2.26) 
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* Outlier extremo > Q 3 + 3 x AIQ 

o Outlier moderado > Q 3 + 1,5 x AIQ 

~7 - Maior valor que nao e um outlier 

- 1 - o 3 

- Md 

-7- Oi 

- Menor valor que nao e um outlier 

o Outlier moderado < - 1,5 x AIQ 

* Outlier extremo < Q 1 - 3 x AIQ 


Figura 2.15 Boxplot com identificanao de outliers. 


M EXEMPLO 27 

Considere os dados ordenados do Exemplo 24 referentes ao tempo medio de processamento da cenoura na 
fase de acabamento: 


44,0 

44,5 

44,5 

44,7 

44,8 

44,9 

44,9 

45,0 „ 

45,0 

45,0 

45,0 

45,4 

45,6 

45,7 

45,8 

46,0 

46,2 

46,2 

46,3 

46,5 


em que: Q 1 = 44,85, Q 2 = 45, Q 3 = 45,9, media = 45,3 e moda = 45. 
Verifique se ha outliers moderados e extremos. 

■ SOLU^AO 

Para verificar se ha um possivel outlier, devemos calcular: 


Qi-lMQs-Qi) = 44,85-1,5.(45,9-44,85) = 43,275. 


Q 3 +1,5*(Q 3 -Q 1 ) = 45,9+1,5.(45,9-44,85) = 47,475. 

Como nao ha nenhum valor da distribui^ao fora deste intervalo, concluimos que nao ha outliers moderados. 
Obviamente, nao e necessario calcular o intervalo para outliers extremos. 

Caso seja identificado apenas um outlier em determinada variavel, o pesquisador podera trata-lo por meio de 
alguns procedimentos existentes, por exemplo, a elimina^ao completa desta observa^ao. Por outro lado, se houver 
mais de um outlier para uma ou mais variaveis individualmente, a exclusao de todas as observa^oes pode gerar 
uma redu^ao significativa do tamanho da amostra. Para evitar esse problema, e muito comum que observa^oes 
consideradas outliers para determinada variavel tenham seus valores atipicos substituidos pela media da variavel, 
excluidos os outliers (Favero et ah, 2009). 

Os autores citam outros procedimentos para o tratamento de outliers, como a substitui^ao por valores de uma 
regressao ou a winsoriza^ao, que elimina, de forma ordenada, um numero igual de observances de cada lado da 
distribuinao. 

Favero et al. (2009) tambem ressaltam a importancia do tratamento de outliers quando o pesquisador tern in- 
teresse de investigar o comportamento de determinada variavel sem a influencia de observances com valores 
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atipicos. Por outro lado, se a inten^ao for justamente analisar o comportamento dessas observances atipicas ou de 
criar subgrupos por meio de criterios de discrepancia, talvez a eliminanao dessas observances ou a substituinao 
dos seus valores nao seja a melhor solunao. 

2.4.2. Medidas de dispersao ou variabilidade 

Para estudar o comportamento de um conjunto de dados, utilizam-se medidas de tendencia central, medidas 
de dispersao, alem da natureza ou forma de distribuinao dos dados. As medidas de tendencia central determinam 
um valor representative do conjunto de dados. Para caracterizar a dispersao ou variabilidade dos dados, sao ne- 
cessarias medidas de dispersao. 

As medidas de dispersao mais comuns referem-se a amplitude, ao desvio-medio, a variancia, ao desvio-padrao, 
ao erro-padrao e ao coeficiente de varianao ( CV ). 

2.4.2.7. Amplitude 

A medida mais simples de variabilidade e a amplitude total, ou simplesmente amplitude ( A ), que representa 
a diferenna entre o maior e menor valor do conjunto de observances: 

A = X abi -X abl (2.27) 


2.4.2.2. Desvio-medio 

O desvio e a diferenna entre cada valor observado e a media da variavel. Assim, para dados populacionais, seria 
representado por (X t - /l), e para dados amostrais por (X { — X). 

O desvio-medio, ou desvio-medio absoluto, representa a media aritmetica dos desvios absolutos (em mo¬ 
dulo). 


CAS01 


Desvio-medio para dados discretos e contmuos nao agrupados 


O desvio medio (D m ) considera a soma dos desvios absolutos de todas as observances dividido pelo tamanho 
da populanao (N) ou da amostra (n): 


D =-izl-(para a popula 9 ao) (2.28) 

m N 

N 

£) = _tl -(para amostras) (2.29) 

n 


M EXEMPLO 28 

ATabela 2.32 apresenta as distancias percorridas (em km) por um veiculo para a entrega de 10 encomendas 
ao longo do dia. Calcule o desvio-medio. 


Tabela 2.32 Distancias percorridas (km). 


12,4 

22,6 

18,9 

9,7 

14,5 

22,5 

26,3 

17,7 

31,2 

20,4 


SOLUNAO 

Para os dados da Tabela 2.32, temos que X = 19,62. Aplicando a expressao (2.29), obtemos o desvio-medio: 


£> = 


_ |l 2,4 -19,62| +122,6 -19,62| + • • • +120,4 -19,62| _ 


10 


4,98 


O desvio-medio pode ser calculado diretamente pelo Excel utilizando a funnao DESV.MEDIO. 
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CAS0 2 


Desvio-medio para dados discretos agrupados 


Para dados agrupados, representados em uma tabela de distribute de frequences por m grupos, o calculo 
do desvio-medio e: 


£) = - ! .J_(para a populagao) (2.30) 

N 


S x <- x h 

D m = —-(para amostras) (2.31) 

n 

m 

lembrando que X = —-. 

n 

M EXEMPLO 29 

A Tabela 2.33 apresenta o numero de gols efetuados pelo time do Ubatuba nos ultimos 30 jogos, com as res- 
pectivas frequencias absolutas. Calcule o desvio-medio. 


Tabela 2.33 Dlstribul^ao de frequencias do Exemplo 29. 


Numero de gols 


0 

5 

1 

8 

2 

6 

3 

4 

4 

4 

5 

2 

6 

1 

Soma 

30 


■ solu^Ao 

A media e 


— _0x5 + lx8 + --- + 6xl 

X—- 

30 


= 2,133 O desvio-medio pode ser determinado a partir dos calculos 


apresentados na Tabela 2.34: 


Tabela 2.34 Calculos para o desvio-medio do Exemplo 29. 


Numero de gols 

F, 

IX-xi 

IX -X| • Fj 

0 

5 

2,133 

10,667 

1 

8 

1,133 

9,067 

2 

6 

0,133 

0,800 

3 

4 

0,867 

3,467 

4 

4 

1,867 

7,467 

5 

2 

2,867 

5,733 

6 

1 

3,867 

3,867 

Soma 

30 


41,067 


i 


X..-X-K 


Logo, D 


41,067 


1,369 


n 


30 
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CAS0 3 


Desvio-medio para dados contmuos agrupados em classes 

Para dados contmuos agrupados em classes, o calculo do desvio-medio e: 




D =- 


N 


(para a populapao) 


k 

D m = —-(para amostras) 

n 


(2.32) 


(2.33) 


Repare que as expressoes (2.32) e (2.33) sao semelhantes as expressoes (2.30) e (2.31),respectivamente, exceto 
que, em vez de m grupos, consideram-se k classes. Alem disso, X, representa o ponto medio ou central de cada 

classe z, sendo X = — -, confer me apresentado na expressao (2.6). 

n 

■ EXEMPLO 30 

Uma pesquisa com 100 recem-nascidos coletou informa^oes sobre o peso dos bebes, a fim de detectar a sua 
varia^ao em fun^ao de fatores geneticos. ATabela 2.35 apresenta os dados agrupados em classes e suas respectivas 
frequencias absolutas. Calcule o desvio-medio. 


Tabela 2.35 Peso dos recem-nascidos (em kg) agrupados em classes. 


Classe 

F t 

2,0 |-2,5 

10 

2,5 |-3,0 

24 

3,0 I- 3,5 

31 

3,5 |-4,0 

22 

4,0 1- 4,5 

13 

Soma 



solu^Ao 

Inicialmente, devemos calcular X: 




X = 


i=1 


2,25x10+2,75x24+3,25x31+3,75x22+4,25x13 


=3,270 


n 100 

O desvio-medio pode ser determinado a partir dos calculos apresentados na Tabela 2.36: 


Tabela 2.36 Calculos para o desvio-medio do Exemplo 30. 


Classe 

Fi 

x £ 

\x i -x\ 

|X,. -X| • F; 

2,0 |-2,5 

10 

2,25 

1,02 

10,20 

2,5 |- 3,0 

24 

2,75 

0,52 

12,48 

3,0 |-3,5 

31 

3,25 

0,02 

0,62 

3,5 |-4 ? 0 

22 

3,75 

0,48 

10,56 

4,0 1- 4,5 

13 

4,25 

0,98 

12,74 

Soma 

100 



46,6 


Logo, D =—- 


46,6 

’ 100 


=0,466 


n 
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2A.2.3. Variancia 

A variancia e uma medida de dispersao ou variabilidade que avalia o quanto os dados estao disperses em re- 
la^ao a media aritmetica. Assim, quanto maior a variancia, maior a dispersao dos dados. 


CASOl 


Variancia para dados discretos e contmuos nao agrupados 

Em vez de considerar a media dos desvios absoiutos, conforme visto na se^ao anterior, e mais comum o cal- 
culo da media dos desvios quadrados, medida conhecida como variancia: 

(N 3 2 


N 


Kx.-m ) 2 ttf- 

— 1=1 _ 


cP = i=I 


u=i_ x 


N 


N 


N 


(para a populafao) 


(2.34) 


\ 2 


• \^ x ‘ 

i>, 2 -— ' 

s 2 =— 


1=1 


n — 1 




(para amostras) 


(2.35) 


A rela^ao entre a variancia amostral (S 2 ) e a variancia populacional (<7 2 ) e dada por: 


S 2 = 


N 
n — 1 


<7 


2 


(2.36) 


■ EXEMPLO 31 

Considere os dados do Exemplo 28 referentes as distancias percorridas (em km) por um veiculo para a entrega 
de 10 encomendas ao longo do dia. Calcule a variancia. 


Tabela 2.32 Distancias percorridas (km). 


12,4 

22,6 

18,9 

9,7 

14,5 

22,5 

26,3 

17,7 

31,2 

20,4 


SOLU^AO 

Vimos no Exemplo 28 que X = 19,62. Aplicando a expressao (2.35), temos: 

_,2 (12,4 -19,62) 2 + (22,6 -19,62) 2 + • • • + (20,4- 19,62) 2 


S =- 


=41,94 


A variancia amostral pode ser calculada diretamente pelo Excel utilizando a fun^ao VAR. Para o calculo da 
variancia populacional, devemos utilizar a fun^ao VARP. 


CAS0 2 


Variancia para dados discretos agrupados 

Para dados agrupados, representados em uma tabela de distribuipao de frequences por m grupos, a variancia 
pode ser calculada da seguinte forma: 

f m \ 2 

t x r p t 


o 2 =—-—^- 


N 


N 


N 


(para a populafao) 


(2.37) 
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E (' x ~ x ) 2 - f < X x M- 


m 

v i=i y 




5 2 = -^- 


t=i 


n — 1 


« —1 


(para amostras) 


X X «' F « 

sendo X = —-. 


(2.38) 


■ EXEMPLO 32 

Considere os dados do Exemplo 29 referentes ao numero de gols efetuados pelo time do Ubatuba nos ultimos 
30 jogos, com as respectivas frequences absolutas. Calcule a variancia. 


■ SOLUgAO 

Conforme calculado no Exemplo 29, a media e X — 21,33. A variancia pode ser determinada a partir dos 
calculos apresentados naTabela 2.37: 


Tabela 2.37 Calculos para a variancia. 


Numero de gols 

F t 

(X - X) 2 

(X t - X) 2 • F t 

0 

5 

4,551 

22,756 

1 

8 

1,284 

10,276 

2 

6 

0,018 

0,107 

3 

4 

0,751 

3,004 

4 

4 

3,484 

13,938 

5 

2 

8,218 

16,436 

6 

1 

14,951 

14,951 

Soma 

30 


81,467 


]T(x,.-x) 2 ^. 


Logo, S 2 =-^i 


81,467 


=2,809 


CAS0 3 


n -1 29 

Variancia para dados continuos agrupados em classes 

Para dados continuos agrupados em classes, o calculo da variancia e: 

k \ 2 

y x r F, 


V 1=1 


C7 2 =^- 


i=l 


N 


(para a populapao) 


N 


N 



i(x,-x) 2 -r, txf-F, 


M__ i=l 

n -1 



« 


n-1 


(para amostras) 


(2.39) 


(2.40) 


Repare que as expressoes (2.39) e (2.40) sao semelhantes as expressoes (2.37) e (2.38),respectivamente, exceto 
que, em vez de m grupos, consideram-se k classes. 
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■ EXEMPLO 33 

Considere os dados do Exemplo 30 referentes ao peso dos recem-nascidos agrupados em classes com as res- 
pectivas frequencias absolutas. Calcule a variancia. 

■ solu^Ao 

Conforme calculado no Exemplo 30, temos que X = 3,270. 

A variancia pode ser determinada a partir dos calculos apresentados naTabela 2.38: 


Tabela 2.38 Calculos para a variancia do Exemplo 33. 


Classe 

Fi 


(X,-X) 2 

(Xi - X) 2 • F { 

2,0 1 - 2,5 

10 

2,25 

1,0404 

10,404 

2,5 |- 3,0 

24 

2,75 

0,2704 

6,4896 

3,0 [ 3,5 

31 

3,25 

0,0004 

0,0124 

3,5 |- 4,0 

22 

3,75 

0,2304 

5,0688 

4,0 1 - 4,5 

13 

4,25 

0,9604 

12,4852 

Soma 

100 



34,46 


3446 

Logo, S 2 = — -= —= 0,348 

n -1 99 

2A.2.4. Desvio-padrao 

Como a variancia considera a media dos desvios quadrados, seu valor tende a ser muito grande e de dificil 
interpreta^ao. Para resolver esse problema, extrai-se a raiz quadrada da variancia, medida conhecida como desvio- 
padrao. E calculado por: 

(para a popula^ao) (2.41) 

S = 4¥ (para amostras) (2.42) 


■ EXEMPLO 34 

Considere novamente os dados dos Exemplos 28 ou 31 referentes as distancias percorridas (em km) pelo vei- 
culo. Calcule o desvio-padrao. 


Tabela 2.32 Distancias percorridas (km). 


12,4 

22,6 

18,9 

9,7 

14,5 

22,5 

26,3 

17,7 

31,2 

20,4 


SOLU^AO 

Temos que X = 19,62. O desvio-padrao e a raiz quadrada da variancia, ja caiculada no Exemplo 31: 


5 = i 


■ = 741,94=6,476 


(l2,4 -19,62) 2 + (22,6 -19,62) 2 + • • • + (20,4 -19,62) 2 
' 9 

O desvio-padrao de uma amostra pode ser calculado diretamente pelo Excel utilizando a fun^ao DESVPAD. 
Para o calculo do desvio-padrao populacional, utiliza-se a fun^ao DESVPADP. 


■ EXEMPLO 35 

Considere os dados dos Exemplos 29 ou 32 referentes ao numero de gols efetuados pelo time do Ubatuba 
nos ultimos 30 jogos, com as respectivas frequencias absolutas. Calcule o desvio-padrao. 
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■ solu^Ao 

A media eX = 2,133. O desvio-padrao e a raiz quadrada da variancia, podendo assim ser determinado a partir 
dos calculos da variancia ja efetuados no Exemplo 32, conforme demonstrado naTabela 2.37: 


Tabela 2.37 Calculos para a variancia. 


Numero de gols 

F { 

(X - X) 2 

(X, - X) 2 • F { 

0 

5 

4,551 

22,756 

1 

8 

1,284 

10,276 

2 

6 

0,018 

0,107 

3 

4 

0,751 

3,004 

4 

4 

3,484 

13,938 

5 

2 

8,218 

16,436 

6 

1 

14,951 

14,951 

Soma 

30 


81,467 


Logo, S 


|£(X,.-X) 2 .F,. 

J=1_ 

I 


81,467 

29 


=42, 809=1,676 


■ EXEMPLO 36 

Considere os dados dos Exemplos 30 ou 33 referentes ao peso dos recem-nascidos agrupados em classes com 
as respectivas frequences absolutas. Calcule o desvio-padrao. 

■ SOLUgAO 

Tem-se que X = 3,270. O desvio-padrao e a raiz quadrada da variancia, podendo assim ser determinado a 
partir dos calculos da variancia ja efetuados no Exemplo 33, conforme demonstrado naTabela 2.38: 


Tabela 2.38 Calculos para a variancia do Exemplo 33. 


Classe 

Fi 

X 

(X - X 2 

(X; - X 2 • Fi 

2,0 b 2,5 

10 

2,25 

1,0404 

10,404 

2,5 |-3,0 

24 

2,75 

0,2704 

6,4896 

3,0 |-3,5 

31 

3,25 

0,0004 

0,0124 

3,5 1- 4,0 

22 

3,75 

0,2304 

5,0688 

4,0 1- 4,5 

13 

4,25 

0,9604 

12,4852 

Soma 

100 



34,46 


Logo, 5 




=•^0,348=0,59 


2.4.2.S. Erro-padrao 

O erro-padrao e o desvio-padrao da media. E obtido dividindo-se o desvio-padrao pela raiz quadrada do ta- 
manho da popula^ao ou amostra, conforme segue: 


C7^ = _ _ (para a popula^ao) 

VN 


(2.43) 


(para amostras) 


(2.44) 
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Quanto maior o numero de medi^oes, melhor sera a determina^ao do valor medio (maior precisao), em razao 
da compensa^ao dos erros aleatorios. 

■ EXEMPLO 37 

Uma das etapas para o preparo e uso do concreto corresponde a mistura dele na betoneira. As Tabelas 2.39 e 
2.40 apresentam os tempos de mistura do concreto (em segundos) considerando uma amostra de 10 e 30 ele- 
mentos, respectivamente. Calcule o erro-padrao para os dois casos e interprete os resultados. 


Tabela 2.39 Tempo de mistura do concreto para uma amostra com 10 elementos. 


124 

111 

132 

142 

108 

127 

133 

144 

148 

105 


Tabela 2.40 Tempo de mistura do concreto para uma amostra com 30 elementos. 


125 

102 

135 

126 

132 

129 

156 

112 

108 

134 

126 

104 

143 

140 

138 

129 

119 

114 

107 

121 

124 

112 

148 

145 

130 

125 

120 

127 

106 

148 


solu<;Ao 

Inicialmente, calcularemos o desvio-padrao para as duas amostras: 


s 1 (124-127,4) 2 +(111-127,4) 2 + ••♦+(l 05-127,4) 2 


s 2 =. 


(l25 -126,167^ + (l 02 -126,167) 2 + • • • + (l 48 -126,167) 2 
' 29 


= 14,227 


Para o calculo do erro-padrao, devemos aplicar a expressao (2.44): 

=4,858 


0 _ S t _ 15,364 

3 v - 


Vio 


% = 

x 2 


14,227 


^ Jn ~ 2 V30 


=2,598 


Apesar da pequena diferen^a no calculo do desvio-padrao, podemos verificar que o erro-padrao da primei- 
ra amostra e quase o dobro comparado com a segunda amostra. Portanto, quanto maior o numero de medi^oes, 
maior a precisao. 

r 

2A.2.6. Coeficiente de variaqao 

O coeficiente de variapao (CP) e uma medida de dispersao relativa que fornece a variapao dos dados em re- 
lacao a media. Quanto menor for o seu valor, mais homogeneos serao os dados, ou seja, menor sera a dispersao 
em torno da media. Pode ser calculado como: 

CV=— X100 (%) (para a populapao) (2.45) 

CF==rXl00 (%) (para amostras) (2.46) 


Um CV pode ser considerado baixo, indicando um conjunto de dados razoavelmente homogeneo, quando 
for menor do que 30%. Se esse valor for acima de 30%, o conjunto de dados pode ser considerado heterogeneo. 
Entretanto, esse padrao varia de acordo com a aplica^ao. 
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■ EXEMPLO 38 

Calcule o coeficiente de varia^ao para as duas amostras do exemplo anterior. 

■ SOLU^AO 

Aplicando a expressao (2.46), temos que: 

o a r '1C. A 

CV. =-=r-xl00= ’ x 100=12,06% 

X, 127,4 


S 14 227 

CV 2 =^xl00=—--x 100=11,28% 

2 X 2 126,167 

Estes resultados confirmam a homogeneidade dos dados da variavel em estudo para as duas amostras. 
Concluimos, portanto, que a media e uma boa medida para representa^ao dos dados. 

Passaremos agora para o estudo das medidas de assimetria e curtose. 

2.4.3. Medidas de forma 

As medidas de assimetria (skewness) e curtose ( kurtosis) caracterizam a forma da distribui^ao dos elementos da 
popula^ao amostrados em torno da media (Maroco, 2014). 

2 . 4 . 3 . 1 . Medidas de assimetria 

As medidas de assimetria referem-se a forma da curva de uma distribui^ao de frequences. Para uma curva 
ou distribui^ao de frequencias simetrica, a media, a moda e a mediana sao iguais. Para uma curva assimetrica, a 
media distancia-se da moda, e a mediana situa-se em uma posi^ao intermediary. A Figura 2.16 apresenta uma 
distribui^ao simetrica. 



Figura 2.16 Distribui^ao simetrica. 

Por outro lado, se a distribui^ao de frequencias se concentrar do lado esquerdo, de modo que a cauda a di- 
reita seja mais alongada que a cauda a esquerda, teremos uma distribui^ao assimetrica positiva ou a direita, 
como mostra a Figura 2.17. Neste caso, a media apresenta um valor maior do que a mediana, e esta, por sua vez, 
apresenta um valor maior do que a moda (Mo < Md < X ). 


Figura 2.17 Assimetria a direita ou positiva. 

Ou ainda, se a distribui^ao de frequencias se concentrar do lado direito, de modo que a cauda a esquerda seja 
mais alongada que a cauda a direita, teremos uma distribui^ao assimetrica negativa ou a esquerda, como 
mostra a Figura 2.18. Neste caso, a media apresenta um valor menor do que a mediana, e esta, por sua vez, apre¬ 
senta um valor menor do que a moda (X < Md < Mo). 
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2.4.3.1.1. Primeiro coeficiente de assimetria de Pearson 

O 1° coeficiente de assimetria de Pearson (A S] ) e uma medida de assimetria proporcionada pela diferen^a 
entre a media e a moda, ponderada por uma medida de dispersao (desvio-padrao): 

(2.47) 

(2.48) 

que possui a seguinte interpretafao: 


A<~. - — (para a popula^ao) 


A si “ 


a 

X-Mo 


(para amostras) 


Se A s — 0, a distribui^ao e simetrica; 

Se A Sl > 0, a distribui^ao e assimetrica positiva (a direita); 

Se A Sl < 0, a distribui^ao e assimetrica negativa (a esquerda). 


■ EXEMPLO 39 

A partir de um conjunto de dados, foram extraldas as seguintes medidas: X = 34,7, Mo = 31,5 Md = 33,2 e 
S — 12,4. Classifique o tipo de assimetria e calcule o 1° coeficiente de assimetria de Pearson. 


■ SOLU^AO 

Como Mo < Md < X, temos uma distribui^ao assimetrica positiva (a direita). Aplicando a expressao (2.48), 
podemos determinar o 1° coeficiente de assimetria de Pearson: 


= 7-313 

Sl S 12,4 


A classifica^ao da distribui^ao como assimetrica positiva tambem pode ser interpretada pelo valor de A Sl > 0. 

2.4.3.1.2. Segundo coeficiente de assimetria de Pearson 

Para evitar o uso da moda no calculo da assimetria, devemos adotar uma rela$ao empirica entre a media, a 
mediana e a moda: X - Mo = 3 • (X - Md), que corresponde ao 2° coeficiente da assimetria de Pearson (-ds 2 ): 

a (para a populafao) (2.49) 

52 CT 

A<. — (para amostras) (2.50) 

62 S 

Da mesma forma, temos que: 

Se A S2 = 0, a distribuigao e simetrica; 

Se A S2 > 0, a distribui^ao e assimetrica positiva (a direita); 

Se A Sl < 0, a distribui^ao e assimetrica negativa (a esquerda). 
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O 1° e o 2° coeficientes de assimetria de Pearson permitem a compara^ao entre duas ou mais distributes 
e a avalia^ao de qual delas e mais assimetrica. O seu valor em modulo indica a intensidade da assimetria, isto e, 
quanto maior o coeficiente de assimetria de Pearson, mais assimetrica e a curva. Logo: 

Se 0 < \A S \ < 0,15, a assimetria e fraca; 

Se 0,15 < |^4 S | < 1, a assimetria e moderada; 

Se |^4 S | >1, a assimetria e forte. 

M EXEMPLO 40 

A partir dos dados do Exemplo 39, calcule o 2° coeficiente de assimetria de Pearson. 

■ SOLU^AO 

Aplicando a expressao (2.50), chegamos a: 


3.(X-M,Q = 3.(34,7-33,2) 
% S 12,4 


Analogamente, como A s > 0, confirmamos que a distribui^ao e assimetrica positiva. 


2.43.1.3. Coeficiente de assimetria de Bowley 

Outra medida de assimetria e o coeficiente de assimetria de Bowley (A s ^), tambem conhecido como coefi¬ 
ciente quartflico de assimetria, calculado a partir de medidas separatrizes como o primeiro e terceiro quartil, 
alem da mediana: 

A _ Q 3 + Qi -2-Md 

Q 3 ~Qi (2.51) 

Da mesma forma, temos que: 

Se a s b = 0. a distribui^ao e simetrica; 

Se A Sb > 0, a distribui^ao e assimetrica positiva (a direita); 

Se A S B < 0, a distribu^ao e assimetrica negativa (a esquerda). 


■ EXEMPLO 41 

Calcule o coeficiente de assimetria de Bowley para o seguinte conjunto de dados, ja ordenados de forma 
crescente: 

24 < 25 < 29 < 31 < 36 < 40 < 44 < 45 < 48 < 50 < 54 < 56 
1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11° 12° 


■ SOLU^AO 

Temos que Q, = 30, Md = 42 e Q 3 = 49. Logo, podemos determinar o coeficiente de assimetria de Bowley: 

A _ Q 3 +Qi -2-Md _ 49+30-2-(42) Q ^ 

Sb Q 3 -Q 1 49-30 

Como A Sb < 0, concluimos que a distribui^ao e assimetrica negativa (a esquerda). 

2.4.3.1.4. Coeficiente de assimetria de Fisher 

A ultima medida de assimetria estudada e conhecida como o coeficiente de assimetria de Fisher {g x ), calculado 
a partir do terceiro momento em torno da media (M 3 ), conforme apresentado em Maroco (2014): 

n 2 -M 3 

gl («—!)•(«—2)-S 3 


(2.52) 
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em que: 

M 3 =—- 

n 

que possui a mesma interpreta^ao dos demais coeficientes de assimetria, ou seja: 

Se g 1 = 0, a distribui^ao e simetrica; 

Se^ > 0, a distribui^ao e assimetrica positiva (a direita); 

Se g 1 < 0, a distribui^ao e assimetrica negativa (a esquerda). 


(2.53) 


O coeficiente de assimetria de Fisher pode ser calculado por meio do Excel utilizando a fun^ao DISTOR£AO 
(ver Exemplo 42) ou pelo suplemento Ferramentas de Analise (se$ao 2.5). Seu calculo pelo software SPSS 
sera apresentado na segao 2.6. 


2.43.1.5. Coeficiente de assimetria no Stata 

O coeficiente de assimetria no software Stata e calculado a partir do segundo e do terceiro momento em tor- 
no da media, conforme apresentado por Cox (2010): 


em que: 


A s ~ 


M 3 

mF 



que possui a mesma interpreta^ao dos demais coeficientes de assimetria, ou seja: 

Se A s = 0, a distribui^ao e simetrica; 

Se A s > 0, a distribuigao e assimetrica positiva (a direita); 

Se A s < 0, a distribui^ao e assimetrica negativa (a esquerda). 


(2.54) 


(2.55) 


2.43.2. Medidas de curtose 

Alem das medidas de assimetria, as medidas de curtose tambem podem ser utilizadas para caracterizar a forma 
da distribui^ao da variavel em estudo. 

A curtose pode ser definida como o grau de achatamento de uma distribui^ao de frequences (altura do pico 
da curva) em rela^ao a uma distribui^ao teorica que geralmente corresponde a distribui^ao normal. 

Quando a forma da distribui^ao nao for muito achatada e nem muito alongada, com aparencia semelhante a 
da curva normal, e denominada mesocurtica, como pode ser visto na Figura 2.19. 



Por outro lado, quando a distribui^ao apresentar uma curva de frequencias mais achatada que a curva normal, 
e denominada platicurtica, como mostra a Figura 2.20. 
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Figura 2.20 Curva platicurtica. 


Ou ainda, quando a distribui^ao apresentar uma curva de frequences mais alongada que a curva normal, e 
denominada leptocurtica, de acordo com a Figura 2.21. 



Figura 2.21 Curva leptocurtica. 


2.43.2.1. Coeficiente de curtose 

Um dos coeficientes mais utilizados para medir o grau de achatamento ou curtose de uma distribu^ao e o 
coeficiente percentilico de curtose, ou simplesmente coeficiente de curtose (fe), calculado a partir do in- 
tervalo interquartil, alem dos percentis de ordem 10 e 90: 

1 Q.3.“~Qi 

2-(P 90 -P 10 ) ( 2 - 56 ) 

com a seguinte interpreta^ao: 

Se k = 0,263, diz-se que a curva e mesocurtica; 

Se k > 0,263, diz-se que a curva e platicurtica; 

Por fim, se k < 0,263, diz-se que a curva e leptocurtica. 


2.43.2.2. Coeficiente de curtose de Fisher 


Outra medida bastante utilizada para medir o grau de achatamento ou curtose de uma distribui^ao e o coe¬ 
ficiente de curtose de Fisher (g 2 ), calculado a partir do quarto momento em torno da media (M 4 ), conforme 
apresentado em Maroco (2014): 


em que: 


£2 = 


■(» + 1)-M 4 


-3- 


(«- 1) 2 


(n —l)-(n —2)-(« —3)-S 4 (»-2)-(»-3) 


(2.57) 


2( x .- x ) 4 


M 4 =—- 

n 


(2.58) 


que possui a seguinte interpreta^ao: 


Se £ 2 = 0, a curva apresenta uma distribui^ao normal (mesocurtica); 
Se^ 2 < 0, a curva e muito achatada (platicurtica); 

Se ^2 > 0, a curva e muito alongada (leptocurtica). 
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Muitos programas estatisticos, entre eles o SPSS, utilizam o coeficiente de curtose de Fisher para calcular 
o grau de achatamento ou curtose (se^ao 2.6). No Excel, a fun^ao CURT calcula o coeficiente de curtose 
de Fisher (Exemplo 42), podendo ainda ser calculado por meio do suplemento Ferramentas de Analise 
(se$ao 2.5). 


2.43.2.3. Coeficiente de curtose no Stata 

O coeficiente de curtose no Stata e calculado a partir do segundo e do quarto momento em torno da media, 
conforme apresentado por Bock (1975) e Cox (2010): 



que possui a seguinte interpreta^ao: 


(2.59) 


Se k s = 3, a curva apresenta uma distribui^ao normal (mesocurtica); 

Se k s < 3, a curva e muito achatada (platicurtica); 

Se k s > 3, a curva e muito alongada (leptocurtica). 

■ EXEMPLO 42 

ATabela 2.41 apresenta o historico de cota^oes da a^ao Y ao longo de um mes, resultando em uma amostra 
com 20 periodos (dias uteis). Calcule: 

a) o coeficiente de assimetria de Fisher {g x ); 

b) o coeficiente de assimetria utilizado no Stata; 

c) o coeficiente de curtose de Fisher (g 2 )l 

d) o coeficiente de curtose utilizado no Stata. 


Tabela 2.41 Cota$ao da a$ao Y ao longo do mes. 


18,7 

18,3 

18,4 

18,7 

18,8 

18,8 

19,1 

18,9 

19,1 

19,9 

18,5 

18,5 

18,1 

17,9 

18,2 

18,3 

18,1 

18,8 

17,5 

16,9 


■ SOLU^AO 

A media e o desvio-padrao dos dados da Tabela 2.41 sao X = 18,475 e S = 0,6324, respectivamente. Temos 
que: 


a) Coeficiente de assimetria de Fisher (gj: 

E calculado a partir do terceiro momento em torno da media (M 3 ): 


2>.- x ) 3 


m 3 =— - 

n 


(18,7-18,475) 3 +---+(16,9-18,475) 3 

20 


-0,0788 


Logo, temos que: 


= (20) 2 : (~Q ,079) _ 

(«-l)-(«-2)-S 3 19-18-(0,6324) 3 


Como g t < 0, podemos concluir que a curva de frequencias se concentra do lado direito e tem uma cauda 
mais longa a esquerda, ou seja, a distribui^ao e assimetrica a esquerda ou negativa. 

O Excel calcula o coeficiente de assimetria de Fisher (g t ) por meio da fungao DISTORT AO. O arquivo 
C 0 ta 90 es.xls apresenta os dados da Tabela 2.41 em uma planilha, das celulas A1:A20. Assim, para o seu calculo, 
basta inserir a expressao =DISTOR£AO(A1:A20). 
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b) Coeficiente de assimetria utilizado no software Stata: 

E calculado a partir do segundo e do terceiro momento em torno da media: 




m 2 = ~ 


(18,7-18,475) 2 +---+(16,9-18,475) 2 

20 


=0,3799 


Seu calculo e: 


M 3 = -0,0788 


A s =^%=-0,3367 


M 


que tem a mesma interpreta^ao do coeficiente de assimetria de Fisher. 

c) Coeficiente de curtose de Fisher (g 2 ): 

E calculado a partir do quarto momento em torno da media (M 4 ): 


2>,--x) 4 


m a =^ 


(18,7 -18,475) 4 + • • • 4- (16,9 -18,475) 4 

20 


=0,5857 


O calculo de g 2 e, por conseguinte: 


ft 2 *(ft + l)*M 4 ^ (ft — l) 2 

(ft —l)-(ft —2)-(ft-3)*S 4 (ft —2)-(ft —3) 


(20)^2 1 .Q,5857 . 09)1 

19-18-17-(0,6324) 4 18-17 


Podemos concluir, portanto, que a curva e alongada ou leptocurtica. 

A fun^ao CURT do Excel calcula o coeficiente de curtose de Fisher (g 2 ). Para esse calculo a partir do arquivo 
Cota^oes.xls, devemos inserir a expressao =CURT(A1:A20). 


d) Coeficiente de curtose no software Stata: 

E calculado a partir do segundo e do quarto momento em torno da media: 
M 2 = 0,3799 e M 4 = 0,5857, como ja calculado. Logo: 


k s — 



0,5857 

(0,3799) 2 


=4,0586 


Como k s > 3, a curva e alongada ou leptocurtica. 

Apresentaremos nas proximas tres se^oes como gerar tabelas, graficos e medidas-resumo por meio do Excel 
e dos softwares estatisticos SPSS e Stata, a partir dos dados do Exemplo 42. 


2.5. EXEMPLO PRATICO EM EXCEL 

A se^ao 2.3.1 ilustrou a representa^ao grafica de variaveis qualitativas por meio de graficos de barras (hori¬ 
zontal e vertical), de setores ou pizzas e do diagrama de Pareto. Apresentamos como cada um desses graficos po- 
de ser obtido pelo Excel. Ja a segao 2.3.2 ilustrou a representa^ao grafica de variaveis quantitativas por meio de 
graficos de linhas, pontos ou dispersao, histograma, entre outros. Analogamente, foi apresentado como a maioria 
deles pode ser obtido pelo Excel. 

A se^ao 2.4 apresentou as principals medidas-resumo, incluindo medidas de tendencia central (media, moda 
e mediana), medidas separatrizes (quartis, decis e percentis), medidas de dispersao ou variabilidade (amplitude, 
desvio-medio, variancia, desvio-padrao, erro-padrao e coeficiente de varia^ao), alem de medidas de forma como 
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assimetria e curtose. Assim, apresentamos como estas podem ser calculadas a partir das fun^oes do Excel, exceto 
as que nao estao disponlveis. 

Esta se^ao apresenta como obter estatisticas descritivas (como media, erro-padrao, mediana, moda, desvio-pa- 
drao, variancia, curtose, assimetria, entre outras), por meio do suplemento Ferramentas de Analise do Excel. 

Para tal, consideraremos o problema apresentado no Exemplo 42, cujos dados estao disponlveis em Excel no 
arquivo C 0 ta 90 es.xls, reproduzidos nas celulas A1:A20, conforme mostra a Figura 2.22. 


A 

A 

1 

18,7 

2 

18,3 

3 

18,4 

4 

18,7 

5 

18,8 

15 

18 r 2 

16 

18 t 3 

17 

18,1 

18 

18,8 

19 

17,5 

20 

16,9 


Figura 2.22 Base de dados em Excel - Prego da agao Y. 

Para ativar o suplemento Ferramentas de Analise no Excel, inicialmente devemos clicar no menu Arquivo 
e em Op£oes, conforme mostra a Figura 2.23. 



Figura 2.23 Menu Arquivo, com destaque para Op^oes. 
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Sera entao aberta a caixa de dialogo Op^oes do Excel, conforme mostra a Figura 2.24. A partir dela, sele- 
cionamos a op$ao Suplementos. Na caixa Suplementos, devemos escolher a op^ao Ferramentas de Analise 
e clicar em Ir. 


| Op^oes do Excel 



Personaiizar Faixa de Op^des 

Barra de Ferramentas de Acesso Raptdo 


Central de Confiabilidade 


Exiba e gerencie Suplementos do Microsoft Office. 



GV. AOff rce!4\lib ra rySAh afysi $\ANALYS32,Xll Supiemento do Excel 


GV..ficel4\Library\Analysis\ATPVBAEN.XLAM Supiemento do Excel 
G\...Officel4\Library\SOLVER\SOLVER.XLAM Supiemento do Excel 


GV.AMicrosoft Off ice\Off icel4\OFFRHD.DLL 
GV.AMicrosoft Offfce\Officel4\OFFRHD.DLl 
CV.AMkrosoft Office\Officel4\OFFRHD.DLL 
GV..s\micro$oft shared\Smart Tag\MOFL.DLL 
G\..,fftce\Officel4\Library\EUROTOOL.XLAM 
GV.AMicrosoft Offke\Officel4VOFFRHD.DLL 

GV.AMicrosoft Office\Officel4\OFFRHD.Dtl 


Suplementos de Aplicativo Ativos 


II Ferramentas e Analise 


Ferramentas de Analise - VBA 
Solver 

Suplementos de Aplicativo Inativos 
Cabe?alhos e Rodapls 
Conteudo Invisrvel 
Dados XML Personalizados 
Data (XML) 

Ferramentas para o Euro 
Linhas e Colunas Ocultas 
Microsoft Actions Pane 3 
Planilhas Ocultas 

Suplementos Reladonados a Document© 
Sem Suplementos Reladonados a Doaimento 

Suplementos de Aplicativo Desabsfitados 

Sem Suplementos de Aplicativo Desabititados 


Supiemento: Ferramentas de Analise 

Editor: Microsoft Corporation 

Compatibilidade; Nenhuma informapo de compatibilidade disponfvel 

Local: CXProgram Files\Microsoft Office\Officel4\Librar)AAnalysis\ANALYS32.XLL 

Descri?ao: Fomece ferramentas de analise de dados para anatises estatfsticas e de engenharia 


Gerencian Suplementos do Excel 


Inspetorde Doaimento 
Inspetorde Document© 
Inspetorde Documento 
A5I0 

Supiemento do Excel 
Inspetor de Documento 
Pacote de Expansao para XML 
Inspetor de Documento 


Figura 2.24 Caixa de dialogo Op^des do Excel. 


Desta forma, aparecera a caixa de dialogo Suplementos, conforme mostra a Figura 2.25. Dentre os suple¬ 
mentos dispomveis, devemos escolher a op^ao Ferramentas de Analise e clicar em OK. 



Figura 2.25 Caixa de dialogo Suplementos. 
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Assim, a op^ao Analise de Dados passara a estar dispomvel no menu Dados, dentro do grupo Analise, 
conforme mostra a Figura 2.26. 


Dados | Revisao Exibicao ® «=> tsF 1 ) 

4i m Yjrr 

—— » Reaphear 

z I Classificar Filtro ~_ 

At J^Avancado 

Classificar e Filtrar 

tsf=j 

Texto para Remover Validacao Consolidar Teste de 
colunas Dupiicatas de Dados ^ Hip6teses^ 

ferramentas de Dados 

<ffi§ ^SH mB °1 Mostrar Detalhe 

“! Ocultar Detalhe 

Agrupar Desagrupar Subtotal 

Estrutura de Topicos ri 

Iju Anilise de Dados 
Solver 

Analise 


Figura 2.26 Dlsponibilidade da op^ao Analise de Dados a partir do menu Dados. 


A Figura 2.27 apresenta a caixa de dialogo Analise de dados. Repare que diversas ferramentas de analise 
estao dispomveis.Vamos escolher a op^ao Estatfstica descritiva e clicar em OK. 


Analise de dados 

Ferramentas de analise 

Anova: fetor unico 
Anova: fetor duplo com repefigao 
Anova: fetor duplo sem repetigao 
Correlagao 
Covarianda 

Ajuste exponendal 

Tested: duas amostras para variindas 
Analise de Fourier 

iHistograma _ 


? 2 ? 



Figura 2.27 Caixa de dialogo Analise de dados. 


A partir da caixa de dialogo Estatistica descritiva (Figura 2.28), devemos selecionar o intervalo de entrada 
(A1:A20) e, em Op^oes de safda, escolher Resumo estatistico. Os resultados podem ser exibidos em uma 
nova planilha ou em uma nova pasta de trabalho. Por fim, clicaremos em OK. 


Estatistica descritiva 


Entrada 

Intervalo de entrada: 
Agrupado por: 

["I Rotulos na primeira linha 


$A$1:$A$20 


(§) Colunas 
O Linhas 



Opgoes de saida ~ 

O Intervalo de safda: 

® Nova planilha: 

O Nova pasta de frabalho 



0 Resump estatistico 
QNfveldeconftabilidadep/m edia: [^S 

□ Enesimo mator: Jj;_ 

O Enesimo menor: 1* 


Figura 2.28 Caixa de dialogo Estatistica descritiva. 


As estatisticas descritivas geradas estao apresentadas na Figura 2.29 e incluem medidas de tendencia cen- 
tral (media, moda e mediana), medidas de dispersao ou variabilidade (variancia, desvio-padrao e erro-padrao) 
e medidas de forma (assimetria e curtose).A amplitude pode ser calculada a partir da diferempa entre os valores 
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maximo e minimo da amostra. Conforme mencionado nas se^oes 2.4.3.1 e 2.4.3.2, a medida de assimetria calcu- 
lada pelo Excel (a partir da fun^ao DISTORT AO ou pela Figura 2.28) corresponde ao coeficiente de assimetria 
de Fisher (g t ) e a medida de curtose calculada (a partir da fun^ao CURT ou pela Figura 2.28) corresponde ao 
coeficiente de curtose de Fisher (g 2 ). 



A | B 


Colunal 

2 

l 


3 

Media 

18,475 

4 

Erro padrao 

0,141398094 

5 

Mediana 

18,5 

& 

Modo 

18,8 

7 

Desvio padrao 

0,632351501 

8 

Varianda da amostra 

0,399868421 

9 

Curtose 

1,75287467 

10 

Assimetria 

-0,364691378 

11 

Imtervalo 

! 3 

12 

Minimo 

16,9 

13 

Maximo 

1 19,9 

14 

Soma 

369,5 

15 

Contagem 

20 


Figura 2.29 Estatisticas descritivas geradas pelo Excel. 


2.6. EXEMPLO PRATICO NO SOFTWARE SPSS 

Esta se$ao apresenta, a partir de um exemplo pratico, como obter as principais estatisticas descritivas univaria- 
das estudadas neste capitulo pelo IBM SPSS Statistics Software®, incluindo tabelas de distribui^ao de frequences, 
graficos (histograma, ramo-e-folhas, boxplot , barras, setores ou pizzas), medidas de tendencia central (media, moda 
e mediana), medidas separatrizes (quartis e percentis),medidas de dispersao ou variabilidade (amplitude, variancia, 
desvio-padrao, erro-padrao, entre outras) e medidas de forma (assimetria e curtose). A reprodu^ao das imagens 
neste se$ao tern autoriza^ao da International Business Machines Corporation®. 

Os dados apresentados no Exemplo 42 compoem a base de entrada do SPSS e estao disponiveis no arquivo 
Cota£6es.sav, conforme mostra a Figura 2.30. 


l • 

Pre^o 

r i i 

18,7 

f 2 ] 

18,3 

r 3 

18,4 

OZl 

18,7 

1 5 1 

18,8 

) 6 | 

18,8 

7 | 

19,1 

r=_ _ _j 

18,9 

9 1 

19,1 

io ! 

19,9 


Figura 2.30 Base de dados no SPSS - Pre^o da a$ao Y. 

Para obtermos tais estatisticas descritivas, devemos clicar em Analyze —> Descriptive Statistics. A partir dai, 
tres op^oes podem ser utilizadas: Frequencies, Descriptives e Explore. 
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2.6.1. Op^ao Frequencies 

Esta op^ao pode ser utilizada tanto para variaveis qualitativas como quantitativas, e disponibiliza tabelas 
de distribui^ao de frequencias, assim como medidas de tendencia central (media, mediana e moda), medidas se- 
paratrizes (quartis e percentis), medidas de dispersao ou variabilidade (amplitude, variancia, desvio-padrao, erro- 
-padrao, entre outras) e medidas de assimetria e curtose. A op^ao Frequencies tambem plota graficos de barras, 
pizzas ou histogramas (com ou sem curva normal). 

Portanto, a partir do menu Analyze —> Descriptive Statistics, devemos escolher a op^ao Frequencies..., 
como mostra a Figura 2.31. 



File Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons V 


j B 

s m 


L.. . L .1 



F Pce?o 

| var 

1 1 1 

18,7 


2 j 

18.3 


3 j 

18,4 


' 4 | 

18,7 


! 5 | 

18,8 


i ® i 

18,8 


r.7 | 

19,1 


8 | 

18,9 


9 

19,1 


10 | 

19,9 



Reports > 

Descriptive Statistics ► 

Tables F 

Compare Means ► 

General Linear Model ► 

Generalized Linear Models ► 
Mixed Models F 

Correlate ► 

Regression > 

Lpglinear > 

Neural Networks > 

Classify ► 

Dimension Reduction F 



Figura 2.31 Estati'stica descritiva no SPSS - Opgao Frequencies. 


Sera aberta, portanto, a caixa de dialogo Frequencies. A variavel em estudo (Pre^o da a^ao, denominada 
Prego) deve ser selecionada em Variable(s) e a op^ao Display frequency tables deve estar ativada para que a 
tabela de distribui^ao de frequencias seja exibida (Figura 2.32). 


| Frequencies 





Statistics... 


Charts... 

.....—--- 


Format.. 

■ .M.... 


Bootstrap,. 





Cancel 
--;- 


Help 


Figura 2.32 Caixa de dialogo Frequencies: selegao da variavel e exibi^ao da tabela de frequencias. 

O proximo passo consiste em clicarmos no botao Statistics... para a sele^o das medidas-resumo de inte- 
resse (Figura 2.33). 
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Dentre as medidas separatrizes, selecionaremos a op^ao Quartiles (que calcula o primeiro e terceiro quartil, 
alem da mediana). Para obtermos o calculo do percentil de ordem i (i - 1,2,..., 99), devemos selecionar a op^ao 
Percentile(s) e adicionar a ordem desejada. Nesse caso, optou-se pelo calculo dos percentis de ordem 10 e 60. 

Ja as medidas de tendencia central que selecionaremos serao Mean (media), Median (mediana) e Mode (moda). 

Como medidas de dispersao, selecionaremos Std. deviation (desvio-padrao), Variance (variancia), Range 
(amplitude) e S.E. mean (erro-padrao medio). 

Por fim, selecionaremos as duas medidas de forma da distribui^ao: Skewness (assimetria) e Kurtosis 
(curtose). 

Para retornar a caixa de dialogo Frequencies, devemos clicar em Continue. 



Figura 2.33 Caixa de dialogo Frequencies: Statistics. 

Na sequencia, clicaremos no botao Charts... e selecionaremos o grafico de interesse. Como opgoes, temos 
o grafico de barras (Bar charts), o grafico de setores ou pizzas (Pie charts) ou o histograma (Histograms). 
Selecionaremos o ultimo grafico com a op^ao plotagem da curva normal (Figura 2.34). Os graficos de barras ou 
pizzas podem ser exibidos em termos de frequencia absoluta (Frequencies) ou frequencia relativa (Percentages). 
Para retornar novamente a caixa de dialogo Frequencies, devemos clicar em Continue. 



Figura 2.34 Caixa de dialogo Frequencies: Charts. 






































76 Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata 


Finalmente, clicaremos em OK. A Figura 2.35 apresenta os calculos das medidas-resumo selecionadas na Figura 
2.33. 

Statistics 


N Valid 

20 

Missing 

0 

Mean 

18,475 

Std. Error of Mean 

,1414 

Median 

18,500 

Mode 

18,8 

Std. Deviation 

,6324 

Variance 

,400 

Skewness 

-.365 

Std. Error of Skewness 

,512 

Kurtosis 

1,753 

Std. Error of Kurtosis 

,992 

Range 

3,0 

Percentiles 10 

17,540 

25 

18,125 

50 

18,500 

60 

18,700 

75 

18,800 


Figura 2.35 Medidas-resumo obtidas de Frequencies: Statistics. 

Conforme estudado nas se^oes 2.4.3.1 e 2.4.3.2, a medida de assimetria calculada pelo SPSS corresponde ao 
coeficiente de assimetria de Fisher (g x ) e a medida de curtose corresponde ao coeficiente de curtose de Fisher 
( g 2 ), respectivamente. 

Ainda na Figura 2.35, repare tambem que os percentis de ordem 25, 50 e 75, que correspondem ao primeiro 
quartil, mediana e terceiro quartil, respectivamente, foram calculados automaticamente. O metodo utilizado para 
o calculo dos percentis foi o da Media Ponderada. 

Ja a tabela de distribui^ao de frequences esta ilustrada na Figura 2.36. 



Frequency 

Percent 

Valid Percent 

Cumulative 

Percent 




Figura 2.36 Distribui^ao de frequences. 
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A primeira coluna representa a frequencia absoluta de cada elemento (F t ), a segunda e terceira colunas repre- 
sentam a frequencia relativa de cada elemento (Fr { — %) e a ultima coluna representa a frequencia relativa acu- 
mulada ( Fr ac - %). 

Ainda na Figura 2.36, podemos perceber que todos os valores ocorreram uma unica vez. Como temos uma 
variavel quantitativa continua com 20 observa^des e nenhuma repetigao, a elabora^ao de graficos de barras ou de 
pizza nao agregaria informa^ao ao pesquisador, isto e, nao propiciaria boa visualiza^ao de como se comportam 
os valores do pre^o da a^ao em termos de faixas. Desta forma, preferiu-se a elabora^ao de um histograma com 
faixas previamente definidas. O histograma gerado pelo SPSS com a op^ao de plotagem da curva normal esta 
ilustrado na Figura 2.37. 



Figura 2.37 Histograma com curva normal obtido de Frequencies: Charts. 


2.6.2. Op^ao Descriptives 

Diferentemente da op^ao Frequencies, que tambem possui a alternativa de tabela de distribui^ao de fre¬ 
quences, alem de graficos de barras, pizzas ou histograma (com ou sem curva normal), a op^ao Descriptives 
disponibiliza apenas medidas-resumo (e indicada, portanto, para variaveis quantitativas). Ainda assim, medidas 
de tendencia central como mediana e moda nao sao disponibilizadas, nem medidas separatrizes como quartis e 
percentis. 

Para usa-la, vamos clicar no menu Analyze —> Descriptive Statistics e escolher a op^ao Descriptives..., 
como mostra a Figura 2.38. 
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. 




File Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons 


jjj f 

3 r j 


Prego 


on 

HI 


> j 

! var 

18,7 


18,3 


18,4 


18,7 


18,8 


18,8 


19,1 


18,9 


19,1 


19,9 



@ Frequencies... 
03 Descriptives... 
^ Explore... 

Crosstabs... 
E3 Ratio... 

0P-P Plots... 

FS Q-Q Plots... 


Reports t> 

Descriptive Statistics F 

Tables F 

Compare Means F 

General Linear Model F 

Generalized Linear Models F 
Mixed Models F 

Correlate F 

Regression F 

Loglinear F 

Neural Networks F 

Classify F 

Dimension Reduction F 


Figura 2.38 Estatistica descritiva no SPSS - Opcao Descriptives. 

Sera aberta, portanto, a caixa de dialogo Descriptives. A variavel em estudo deve ser selecionada em 
Variable(s), conforme mostra a Figura 2.39. 



Figura 2.39 Caixa de dialogo Descriptives: selegao da variavel. 


Vamos clicar no botao Options... e selecionar as medidas-resumo de interesse (Figura 2.40). Repare que 
foram selecionadas as mesmas medidas-resumo do comando Frequencies, exceto a mediana, a moda, alem dos 
quartis e percentis que nao estao disponiveis, como ja mencionado. Cliquemos em Continue para retornar a 
caixa de dialogo Descriptives. 
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Descriptrves: Options 


1 Mean H Sum 

■Dispersion ——- 

H Std deviation H Minimum 
H Variance H Maximum 
H Range @ S.E. mean 


Distribution- 
M Kurtosis 


Skewness 


(-Display Order-= 

® Variable list 
© Alphabetic 
© Ascending means 
© Descending means 




Figura 2.40 Caixa de dialogo Descriptives: Options. 

Finalmente, vamos clicar em OK. Os resultados estao disponiveis na Figura 2.41. 


Descriptive Statistics 



N 

Range 

Mean 

Std. Deviation 

Variance 

Skewness 

Kurtosis I 


Statistic 

Statistic 

Statistic 

Std. Error 

Statistic 

Statistic 

Statistic 

Std. Error 

Statistic 

Std. Error 

Prepo 

20 

3,0 

18,475 

,1414 

,6324 

,400 

-.365 

,512 

1,753 

,992 

Valid N (listwise) 

20 











Figura 2.41 Medidas-resumo obtidas de Descriptive: Options. 


2.6.3. Op^ao Explore 

A op^ao Explore tambem nao disponibiliza a tabela de distribui^ao de frequences, como ocorre para a op- 
£ao Frequencies. Com rela^ao aos tipos de grafico, diferentemente desta ultima op^ao, que oferece graficos de 
barras, pizzas e histograma, a op^ao Explore apresenta os graficos de ramo-e-folhas, boxplot, alem do histograma, 
porem, sem a alternativa de plotagem da curva normal. Com rela^ao as medidas-resumo, a op^ao Explore dis¬ 
ponibiliza medidas de tendencia central como media e mediana (nao ha a op^ao da moda), medidas separatrizes 
como percentis (de ordem 5, 10, 25, 50, 75, 90 e 95), medidas de dispersao como amplitude, variancia, desvio- 
-padrao, etc. (nao calcula o erro-padrao), alem de medidas de assimetria e curtose. Esta op^ao e indicada,portanto, 
para o calculo de estatisticas descritivas de variaveis quantitativas. 

Desta forma, a partir do menu Analyze —> Descriptive Statistics, escolheremos a op^ao Explore..., con- 
forme mostra a Figura 2.42. 
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File Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons 


\©ys ® ^ 

13: 

| — 

[ Prego 

| var 

| i “ | 

18,67 


f 2 | 

18,36 


1 3 1 

18,50 


r 4 -■] 

18,59 


!: s | 

18,80 


i;.s. i 

18,77 


!■ T 1 

19,12 


r s i 

18,94 


|i 9 | 

19,16 


f.' 10 ~~ 1 

18,90 



Reports ► 

Descriptive Statistics > 

Tables > 

Compare Means > 

Gen e ral Li n ear Model > 

Generalized Linear Models > 
Mixed Models > 

Correlate > 

Regression ► 

Loglinear » 

Neural Networks l> 

Classify > 

Dimension Reduction > 


fm Frequencies... 
K Descriptives... 

Explore... 

US Crosstabs... 

§1 Ratio... 

Hp-P Plots... 
lig CM2 Plots... 


Figura 2.42 Estatfstica descritiva no SPSS - Op^ao Explore. 


Sera aberta, portanto, a caixa de dialogo Explore. A variavel em estudo deve ser selecionada na lista de varia- 
veis dependentes (Dependent List), conforme mostra a Figura 2.43. 


j Explore 




Dependent List 


Statistics 


D 


[ Plots... I 


Factor List 




Options..."] 
(Bootstrap...'] 


Label Cases by: 


Display--- 

©Both ©Statistics © Plots 


[ OK ] [ Paste ] Reset ] [ Cancel) [ Help ] 


Figura 2.43 Caixa de dialogo Explore: selegao da variavel. 


Em seguida, devemos clicar no botao Statistics... que abrira a caixa Explore: Statistics, e selecionar as op- 
goes Descriptives, Outliers e Percentiles, conforme mostra a Figura 2.44. 


(§ Explore: Statistics 

[lp i S3 W! *J 

SI Descriptives 



Confidence Interval for Mean: 1 

95 

% 

Q M-estimators 
fl Outliers 



g] [Percentiles 1 


[continue]! Cancel ][ Help ] 


Figura 2.44 Caixa de dialogo Explore: Statistics. 
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Vamos clicar no botao Continue para retornar a caixa Explore. Na sequencia, devemos clicar no botao 
Plots... que abrira a caixa Explore: Plots, e selecionar os graficos de interesse, conforme mostra a Figura 2.45. 
Neste caso,foram selecionados Boxplots: Factor levels together (os boxplots resultantes estarao juntos no mes- 
mo grafico), Stem-and-leaf (ramo-e-folhas) e o histograma (repare que nao ha a opgao de plotagem da curva 
normal). Devemos clicar novamente em Continue para retornar a caixa de dialogo Explore. 



@ Explore: Plots 


“Boxplots 


-Descriptive 

| ® Factor levels together 


B Stem-and-leaf 

1 Q Dependents together 
© None 


@| Histogram 


El Normality piots with tests 

^Spread vs Level with Levene jest-— 

■ # None 

© Power estimation 
! ® Transformed Power [Natural log 
; @ Uritransformed 

MHHBM 

mmmmmm WmaSmmmf WmmgMwM V 


Figura 2.45 Caixa de dialogo Explore: Plots. 

Finalmente, clicaremos em OK. Os resultados obtidos estao ilustrados a seguir. 

A Figura 2.46 apresenta os resultados obtidos a partir de Explore: Statistics, opgao Descriptives. 


Descriptives 



Statistic 

Std. Error 

Prego Mean 

18,475 

,1414 

95% Confidence Interval Lower Bound 

for Mean 

Upper Bound 

18,179 

18,771 


5% Trimmed Mean 

18,483 


Median 

18,500 


Variance 

,400 


Std. Deviation 

,6324 


Minimum 

16,9 


Maximum 

19,9 


Range 

3,0 


Interquartile Range 

,7 


Skewness 

-,365 

,512 

Kurtosis 

1,753 

,992 


Figura 2.46 Resultados obtidos a partir da opgao Descriptives. 


Ja a Figura 2.47 apresenta os resultados obtidos a partir de Explore: Statistics, op^ao Percentiles. Foram 
calculados os percentis de ordem 5,10,25 (Qi), 50 (mediana), 75 (Q 3 ), 90 e 95, segundo dois metodos: Weighted 
Average (Media Ponderada) e Tukey’s Hinges. Este ultimo corresponde ao metodo proposto neste capitulo (se- 
£ao 2.4.1.2 — caso 1). Assim, aplicando as expressoes da se^ao 2.4.1.2 para esse exemplo, chegamos aos mesmos 
resultados da Figura 2.47 referentes ao metodo Tukey’s Hinges para os calculos de ^25> ^50 e ^75* Nesse exemplo, 
coincidentemente, o valor de P 75 foi igual para os dois metodos, mas costuma divergir. 
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Percentiles 




Percentiles | 



5 

10 

25 

50 

75 

90 

95 

Weighted Average 
(Definition 1) 

Prepo 

16,930 

17,540 

18,125 

18,500 

18,800 

19,100 

19,860 

Tukeys Hinges 

Prepo 



18,150 

18,500 

18,800 




Figura 2.47 Resultados obtidos a partir da oppao Percentiles. 


A Figura 2.48 apresenta os resultados obtidos a partir de Explore: Statistics, oppao Outliers. Sao apresen- 
tados os valores extremos da distribuipao (os cinco maiores e os cinco menores) com as respectivas posipoes en- 
contradas no banco de dados. 


Extreme Values 



Case Number 

Value 

Prepo Highest 1 

10 

19,9 

2 

7 

19,1 

3 

9 

19,1 

4 

8 

18,9 

5 

5 

18,8 a 

Lowest 1 

20 

16,9 

2 

19 

17,5 

3 

14 

17,9 

4 

17 

18,1 

5 

13 

18,1 


a. Only a partial list of cases with the value 18,8 
are shown in the table of upper extremes. 


Figura 2.48 Resultados obtidos a partir da oppao Outliers. 

Ja os graficos gerados a partir das oppoes selecionadas em Explore: Plots (histograma, ramo-e-folhas e box- 
plot) estao representados nas Figuras 2.49, 2.50 e 2.51, respectivamente. 



Figura 2.49 Histograma gerado a partir da caixa de dialogo Explore: Plots. 
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Obviamente, o histograma gerado pela Figura 2.49 e o mesmo da op^ao Frequencies (Figura 2.37), porem, 
sem a curva normal, ja que a op^ao Explore nao disponibiliza esta fun^ao. 


f 




% 


Pre?o Stem- 

and-Leaf 

Plot 



Frequency 

Stem 

& Leaf 



1.00 Extremes 

(=<16,9) 



,00 

17 




2,00 

17 

. 59 



6,00 

18 

112334 



8,00 

18 

55778889 



2,00 

19 

11 



1,00 Extremes 

0=19,9) 



Stem width 

: 

1,0 



Each leaf: 

1 

case (s) 


v _ 




__ 


Figura 2.50 Grafico de ramo-e-folhas gerado a partir da caixa de dialogo Explore: Plots. 


A Figura 2.50 mostra que os dois primeiros digitos do numero (parte inteira, antes da virgula) compoem o 
ramo e as casas decimals correspondem a folha. Adicionalmente, o ramo 18 esta representado em duas linhas ja 
que contem varias observances. 

Vimos na se^ao 2.4.1.3 como calcular um outlier extremo pelas expressoes X* < Q 1 -3.(Q 3 -Q 1 ) e X* > Q 3 +3. 
(Q 3 -Q 1 ). Se considerarmos que Q^lBjlS e Q 3 = 18 , 8 , tem-se que X* < 16,2 ou X* > 20,75. Como nao ha ob¬ 
servances fora desses limites, conclui-se que nao existem outliers extremos. 

Repetindo o mesmo procedimento para outliers moderados, isto e, aplicando as expressoes X° < Q^-1,5. 
(Q 3 -Qi) e X° > Q 3 +1,5.(Q 3 -Q 1 ), podemos verificar que existe 1 observanao com valor menor do que 17,175 
(20 a observanao) e outra com valor maior do que 19,775 (10 a observanao). Esses valores sao entao considerados 
outliers moderados. 



Figura 2.51 Boxplot gerado a partir da caixa de dialogo Explore: Plots. 
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O boxplot da Figura 2.51 mostra que as observances 10 e 20 com valores 19,9 e 16,9, respectivamente, sao 
outliers moderados (representados por circulos), propiciando ao pesquisador, em funnao de seus objetivos de pes- 
quisa, a decisao de mante-las, exclui-las (a analise pode ser prejudicada em funnao da redu^ao do tamanho da 
amostra), ou substituir seus valores pela media da variavel. 

Ainda na Figura 2.51, os valores de Q 2 (. Md) e Q 3 correspondem a 18,15, 18,5 e 18,8, respectivamente, 
que sao aqueles obtidos pelo metodo Tukey’s Hinges (Figura 2.47), considerando todas as 20 observances iniciais. 
Portanto, as medidas de posinao do boxplot (Q u Md e Q 3 ), com excenao dos valores minimo e maximo, sao cal- 
culadas sem a exclusao dos outliers. 

2 . 7 . EXEMPLOPRATICO NO SOFTWARE STATA 

As mesmas estatisticas descritivas obtidas na senao anterior por meio do software SPSS serao calculadas nesta 
senao por meio do Stata Statistical Software®. Os resultados serao comparados aqueles obtidos algebricamente e 
tambem por meio do SPSS. A reprodunao das imagens apresentadas nesta senao tern autorizanao da StataCorp LP®. 
Os dados do Exemplo 42 que compoem a base de entrada do Stata estao dispomveis no arquivo Cotafoes.dta. 


2.7.1. Tabelas de distribuinao de frequences univariadas no Stata 

Por meio do comando tabulate, ou simplesmente tab, como sera utilizado ao longo do livro, podemos ob- 
ter tabelas de distribuinao de frequences para determinada variavel. A sintaxe do comando e: 

tab variavel* 

em que o termo variavel* devera ser substituido pelo nome da variavel considerada na analise. 

A Figura 2.52 mostra os outputs gerados a partir do comando tab prego. 


. tab prego 




prego | 

Freq. 

Percent 

Cum. 





16.9 | 

1 

5.00 

5.00 

17.5 | 

1 

5.00 

10.00 

17.9 | 

1 

5.00 

15.00 

18.1 | 

2 

10.00 

25.00 

18.2 | 

1 

5.00 

30.00 

18.3 | 

2 

10.00 

40.00 

18.4 | 

1 

5.00 

45.00 

18.5 | 

2 

10.00 

55.00 

18.7 | 

2 

10.00 

65.00 

18.8 | 

3 

15.00 

80.00 

18.9 | 

1 

5.00 

85.00 

19.1 | 

2 

10.00 

95.00 

19.9 | 

1 

5.00 

100.00 





Total | 

20 

100.00 



Figura 2.52 Distribuinao de frequencias no Stata utilizando o comando tab. 


Assim como a tabela de distribuinao de frequencias obtida pelo SPSS (Figura 2.36), a Figura 2.52 fornece a 
frequencia absoluta, relativa e relativa acumulada para cada categoria da variavel prego . 

Considere um caso com mais de uma variavel em estudo em que o objetivo e gerar tabelas de distribuinao 
de frequencias univariadas (one-way tables ), isto e, uma tabela para cada variavel em analise. Nesse caso, devemos 
utilizar o comando tabl, com a seguinte sintaxe: 

tabl variaveis* 

em que o termo variaveis* devera ser substituido pela lista de variaveis consideradas na analise. 

2.7.2. Resumo de estatisticas descritivas univariadas no Stata 

Por meio do comando summarize, ou simplesmente Siam, como sera utilizado ao longo do livro, podemos 
obter medidas-resumo como media, desvio-padrao, minimo e maximo. A sintaxe do comando e: 

sum variaveis* 

que o termo variaveis* devera ser substituido pela lista de variaveis a serem consideradas na analise. Se ne 
nhuma variavel for especificada, as estatisticas serao calculadas para todas as variaveis do banco de dados. 
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Por meio da op$ao detail, podemos obter estatisticas adicionais, como o coeficiente de assimetria, coefi- 
ciente de curtose, os quatro menores e maiores valores, assim como diversos percentis. A sintaxe do comando e: 

sum variaveis*, detail 

Portanto, para os dados dispomveis do nosso exemplo no arquivo Cota^oes.dta, devemos digitar inicialmen- 
te o seguinte comando: 

sum pre$o 

obtendo-se as estatisticas da Figura 2.53. 


. sum prego 






Variable | 

Obs 

Mean 

Std. Dev. 

Min 

Max 

prego | 

20 

18.475 

.6323515 

16.9 

19.9 


Figura 2.53 Medidas-resumo a partir do comando sum do Stata. 


Para a obten^ao das estatisticas descritivas adicionais, devemos digitar o seguinte comando: 

sum pre$o, detail 

A Figura 2.54 apresenta os outputs gerados. 


. sum 

prego, detail 

prego 




Percentiles 

Smallest 



1% 

16.9 

16.9 



5% 

17.2 

17.5 



10% 

17.7 

17.9 

Obs 

20 

25% 

18.15 

18.1 

Sum of Wgt. 

20 

50% 

18.5 


Mean 

18.475 



Largest 

Std. Dev. 

.6323515 

75% 

18.8 

18.9 



90% 

19.1 

19.1 

Variance 

.3998684 

95% 

19.5 

19.1 

Skewness 

-.3367495 

99% 

19.9 

19.9 

Kurtosis 

4.058596 


Figura 2.54 Estatisticas adicionais utilizando a op^ao detail. 


Como mostra a Figura 2.54, a op^ao detail fornece o calculo de percentis de ordem 1,5,10, 25, 50, 75, 90, 
95 e 99. Esses resultados sao obtidos pelo metodo Tukey’s Hinges.V imos, por meio da Figura 2.47 do software 
SPSS, os resultados dos percentis de ordem 25, 50 e 75 obtidos pelo mesmo metodo. 

A Figura 2.54 tambem fornece os 4 menores e maiores valores da amostra analisada, assim como os coefi- 
cientes de assimetria e curtose. Repare que esses valores coincidem com aqueles calculados nas se^oes 2.4.3.1.5 
e 2.4.3.2.3, respectivamente. 


2.73. Calculo de percentis no Stata 

A se^ao anterior apresentou o calculo dos percentis de ordem 1, 5, 10, 25, 50, 75, 90, 95 e 99 pelo metodo 
Tukey’s Hinges. 

Por outro lado, a partir do comando centile, podemos especificar os percentis a serem calculados. O metodo 
utilizado nesse caso e o da Media Ponderada {WeightAverage ).A sintaxe do comando e: 

centile variaveis*, centile (numeros*) 

em que o termo variaveis* devera ser substituido pela lista de variaveis a serem consideradas na analise, e o 
termo numeros* pela lista de numeros que representam a ordem dos percentis a serem reportados. 
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Suponha, portanto, que tenhamos o objetivo de calcular os percentis de ordem 5,10, 25, 60, 64, 90 e 95 para 
a variavel prego , pelo metodo da Media Ponderada. Para isso, devemos utilizar o seguinte comando: 

centile prego, centile (5 10 25 60 64 90 95) 

Os resultados sao apresentados na Figura 2.55. 


. centile prepo, centile (5 10 25 60 64 90 95) 

-- Binom. Interp. 


Variable 

1 

Obs 

Percentile 

Centile 

[95% Conf. 

Interval] 

pre$o 

1 

20 

5 

16.93 

16.9 

18.06946* 


1 


10 

17.54 

16.9 

18.15694* 


1 


25 

18.125 

17.50411 

18.45885 


1 


60 

18.7 

18.31119 

18.87417 


1 


64 

18.744 

18.40077 

18.98594 


1 


90 

19.1 

18.8 

19.9* 


1 


95 

19.86 

18.93054 

19.9* 


* Lower (upper) confidence limit held at minimum (maximum) of sample 


Figura 2.55 Resultados obtldos pelo comando centile do Stata. 


Vimos, por meio da Figura 2.35, os resultados do software SPSS para os percentis de ordem 10, 25, 50, 60 e 
75 utilizando o mesmo metodo. A Figura 2.47 do SPSS tambem disponibilizou o calculo dos percentis de ordem 
5,10, 25, 50, 75, 90 e 95 pelo metodo da Media Ponderada. O unico percentil que nao havia sido especificado 
anteriormente foi o de ordem 64; os demais coincidem com os resultados das Figuras 2.35 e 2.47. 

2.7.4. Graficos no Stata: histograma, ramo-e-folhas e boxplot 

O Stata disponibiliza uma serie de graficos, incluindo grafico de barras, setores ou pizza, diagrama de disper- 
sao, histograma, ramo-e-folhas, boxplot , etc. Apresentaremos a seguir como obter o histograma, grafico de ramo- 
-e-folhas e boxplot no Stata para os dados disponiveis no arquivo Cota9oes.dta. 


2.7.4.7. Histograma 

O histograma no Stata pode ser obtido para variaveis continuas e discretas. No caso de variaveis continuas, 
para obten^ao de um histograma de frequences absolutas, com a op^ao de plotagem da curva normal, devemos 
digitar a seguinte sintaxe: 

histogram variavel*, frequency normal 

ou simplesmente: 

hist variavel*, freq norm 

como sera utilizado ao longo do livro. Conforme mencionado, o termo variavel* deve ser substituido pelo 
nome da variavel em estudo. 

Para variaveis discretas, devemos incluir o termo discrete: 

hist variavel*, discrete freq norm 

Retornando aos dados do Exemplo 42, para obtermos um histograma de frequences com a op^ao de plota¬ 
gem da curva normal, devemos digitar o seguinte comando: 

hist prego, freq norm 

O output gerado esta representado na Figura 2.56. 
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Figura 2.56 Histograma de frequences no Stata. 


2.7.4.2. Ramo-e-folhas 

O grafico de ramo-e-folhas no Stata pode ser obtido a partir do comando stem seguido do nome da variavel 
em estudo. Para os dados do arquivo Cotagoes.dta, basta digitarmos o seguinte comando: 

stem prego 

O output gerado esta representado na Figura 2.57. 


. stem prego 

Stem-and-leaf plot for prego 

prego rounded to nearest multiple of .1 
plot in units of .1 


16. 

17* 

1 

1 

9 

17. 

1 

59 

18* 

1 

112334 

18. 

1 

55778889 

19* 

1 

11 

19. 

1 

9 


Figura 2.57 Grafico de ramo-e-folhas no Stata. 


2.7.43. Boxplot 

Para obten^ao do boxplot pelo software Stata, devemos utilizar a seguinte sintaxe: 

graph box variaveis* 

em que o termo variaveis* devera ser substituido pela lista de variaveis a serem consideradas na analise, de mo- 
do que e gerado um grafico para cada variavel. 

Para os dados do Exemplo 42, o comando e: 

graph box prego 

O grafico esta representado na Figura 2.58. 
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Figura 2.58 Boxplot no Stata. 


que corresponde ao mesmo grafico da Figura 2.51 gerado pelo SPSS. 

2.8. CONSIDERA0ES FINAIS 

Neste capitulo, estudamos a estatistica descritiva para uma unica variavel (estatistica descritiva univariada), a 
fim de obtermos melhor compreensao sobre o comportamento de cada variavel por meio de tabelas, graficos e 
medidas-resumo, identificando tendencias, variabilidade e outliers. 

Antes de iniciarmos o uso da estatistica descritiva, e necessario identificarmos o tipo de variavel a ser estudada. 
O tipo de variavel e crucial no calculo de estatisticas descritivas e na representa^ao grafica de resultados. 

As estatisticas descritivas utilizadas para representar o comportamento dos dados de uma variavel qualitati- 
va sao tabelas de distribuigao de frequencia e graficos. A tabela de distribuigao de frequencias para uma variavel 
qualitativa representa a frequencia de ocorrencias de cada categoria da variavel. A representa^ao grafica de varia- 
veis qualitativas pode ser ilustrada por meio de graficos de barras (horizontal e vertical), de setores ou pizzas e do 
diagrama de Pareto. 

Para as variaveis quantitativas, as estatisticas descritivas mais utilizadas sao os graficos e as medidas-resumo 
(medidas de posi^ao ou localizagao, dispersao ou variabilidade e medidas de forma). A tabela de distribu^ao de 
frequencias tambem pode ser utilizada para representar a frequencia de ocorrencias de cada valor possivel de uma 
variavel discreta, ou ainda para representar a frequencia dos dados de variaveis continuas agrupadas em classes. A 
representa^ao grafica de variaveis quantitativas e geralmente ilustrada por meio de graficos de linhas, grafico de 
pontos ou dispersao, histograma, grafico de ramo-e-folhas e boxplot (diagrama de caixa). 

2.9. EXERCI'CIOS 

1) Quais estatisticas podem ser utilizadas (e em quais situates) para representar o comportamento de uma unica 
variavel (quantitativa ou qualitativa)? 

2) Quais as limita^oes ao se utilizarem apenas medidas de tendencia central no estudo de determinada variavel? 

3) Como pode ser verificada a existencia de outliers em determinada variavel? 

4) Descreva cada uma das medidas de dispersao ou variabilidade. 

5) Qual a diferen^a entre o 1° e o 2° coeficientes de Pearson utilizados como medidas de assimetria de uma dis- 
tribui^ao? 

6) Qual o melhor grafico a ser construido para que se verifique a posi^ao, a assimetria e a discrepancia nos dados? 
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7) No caso do grafico de barras e do diagrama de dispersao, qual deve ser a natureza dos dados a serem utilizados? 

8 ) Quais graficos sao mais adequados para representar dados qualitativos? 

9) ATabela 2.42 apresenta o numero de automoveis vendidos por uma concessionary ao longo dos ultimos 30 
dias. Construa uma tabela de distribui^ao de frequencias para esses dados. 


Tabela 2.42 Numero de automoveis vendidos. 


7 

5 

9 

11 

10 

8 

9 

6 

8 

10 

8 

5 

7 

11 

9 

11 

6 

7 

10 

9 

8 

5 

6 

8 

6 

7 

6 

5 

10 

8 


10) Uma pesquisa sobre as condi^oes de saude de 50 pacientes coletou informa^oes referentes aos seus pesos 
(Tabela 2.43). Construa a tabela de distribui^ao de frequencias para este problema. 


Tabela 2.43 Peso dos pacientes. 


60,4 

78,9 

65,7 

82,1 

80,9 

92,3 

85,7 

86,6 

90,3 

93,2 

75,2 

77,3 

80,4 

62,0 

90,4 

70,4 

80,5 

75,9 

55,0 

84,3 

81,3 

78,3 

70,5 

85,6 

71,9 

77,5 

76,1 

67,7 

80,6 

78,0 

71,6 

74,8 

92,1 

87,7 

83,8 

93,4 

69,3 

97,8 

81,7 

72,2 

69,3 

80,2 

90,0 

76,9 

54,7 

78,4 

55,2 

75,5 

99,3 

66,7 


11) Em uma industria de eletrodomesticos, na etapa de produ^ao do componente porta, o inspetor de qualidade 
verifica o total de pe^as rejeitadas por tipo de falha (desalinhamento, risco, deforma^ao, desbotamento e oxige- 
na^ao), conforme mostra a Tabela 2.44. 


Tabela 2.44 Total de pe^as rejeitadas por tipo de falha. 


Descri^ao da falha 

Total 

Desalinhamento 

98 

Risco 

67 

Deformagao 

45 

Desbotamento 

28 

Oxigenagao 

12 

Total 

250 


Pede-se: 

a) Construa uma tabela de distribui^ao de frequencias. 

b) Elabore o grafico de setores ou pizza, alem do diagrama de Pareto. 

12) Para a conserva^ao do a^ai, e necessario um conjunto de procedimentos como branqueamento, pasteuriza- 
$ao, congelamento e desidrata^ao. Os arquivos Desidrata9a0.xls, Desidrata£ao.sav e Desidrata^ao.dta apre- 
sentam o tempo de processamento (em segundos) na fase de desidrata^ao ao longo de 100 periodos. Pede-se: 

a) Calcule as medidas de posi^ao referentes a media aritmetica, a mediana e a moda. 

b) Calcule o primeiro e o terceiro quartis e veja se ha indicios de existencia de outliers. 

c) Calcule os percentis de ordem 10 e 90. 

d) Calcule os decis de ordem 3 e 6. 

e) Calcule as medidas de dispersao (amplitude, desvio-medio, variancia, desvio-padrao, erro-padrao e coefi- 
ciente de varia^ao). 

f) Verifique se a distribui^ao e simetrica, assimetrica positiva ou assimetrica negativa. 

g) Calcule o coeficiente de curtose e classifique o grau de achatamento da distribui^ao (mesocurtica, plati- 
curtica ou leptocurtica). 

h) Construa o histograma, o grafico de ramo-e-folhas e o boxplot para a variavel em estudo. 
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13) Em determinada agenda bancaria, coletou-se o tempo medio de atendimento (em minutos) de uma amostra 
de 50 clientes para tres tipos de servi^os. Os dados sao apresentados nos arquivos Servi90s.xls, Servi^os.sav 
e Servi^os.dta. Compare os resultados dos servi^os com base nas seguintes medidas: 

a) Medidas de posi^ao (media, mediana e moda). 

b) Medidas de dispersao (variancia, desvio-padrao e erro-padrao). 

c) Primeiro e terceiro quartis; verifique se ha indicios de existencia de outliers. 

d) Coeficiente de assimetria de Fisher (g^ e coeficiente de curtose de Fisher (g 2 ). Classifique a simetria e o 
grau de achatamento de cada distribui^ao. 

e) Para cada uma das variaveis, construa o grafico de barras, o boxplot e o histograma. 

14) Um passageiro coletou o tempo medio de percurso (em minutos) de um onibus na linhaVila Mariana - 
Jabaquara, ao longo de 120 dias (Tabela 2.45). 


Tabela 2.45 Tempo medio de percurso em 120 dias. 


Tempo 

Numero de dias 

30 

4 

32 

7 

33 

10 

35 

12 

38 

18 

40 

22 

42 

20 

43 

15 

45 

8 

50 

4 


Pede-se: 

a) Calcule a media aritmetica, a mediana e a moda. 

b) Calcule Q l9 Q 3 , D 4 , P 61 e P 84 . 

c) Ha indicios de existencia de outliers ? 

d) Calcule a amplitude, a variancia, o desvio-padrao e o erro-padrao. 

e) Calcule o coeficiente de assimetria de Fisher (g t ) e o coeficiente de curtose de Fisher (g 2 ). Classifique a 
simetria e o grau de achatamento de cada distribui^ao. 

f) Elabore os graficos de barras e de ramo-e-folhas, o histograma e o boxplot. 

15) A fim de melhorar a qualidade do servi^o, uma empresa varejista coletou o tempo medio de atendimento, 
em segundos, de 250 funcionarios. Os dados foram agrupados em classes, com as respectivas frequencias absolutas 
e relativas, conforme mostra a Tabela 2.46. 


Tabela 2.46 Tempo medio de atendimento. 


Classe 

Fi 

Fr { (%) 

30 b 60 

11 

4,4 

60 b 90 

29 

11,6 

90 b120 

41 

16,4 

120 b150 

82 

32,8 

150 b180 

54 

21,6 

180 b 210 

33 

13,2 

Soma 

250 

100 
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Pede-se: 

a) Calcule a media aritmetica, a mediana e a moda. 

b) Calcule Q 1( Q 3 , D 2 , P 13 e P 95 . 

c) Verifique se ha indicios de existencia de outliers . 

d) Calcule a amplitude, a variancia, o desvio-padrao e o erro-padrao. 

e) Calcule o primeiro coeficiente de assimetria de Pearson e o coeficiente de curtose. Classifique a simetria 
e o grau de achatamento da distribui^ao. 

f) Elabore o histograma. 

16) Um analista financeiro pretende comparar o pre<;o de duas a^oes ao longo do ultimo mes. Os dados estao 
listados naTabela 2.47. 


Tabela 2.47 Pre$o das agoes. 


A$ao A 

A 9 S 0 B 

31 

25 

30 

33 

24 

27 

24 

34 

28 

32 

22 

26 

24 

26 

34 

28 

24 

34 

28 

28 

23 

31 

30 

28 

31 

34 

32 

16 

26 

28 

39 

29 

25 

27 

42 

28 

29 

33 

24 

29 

22 

34 

23 

33 

32 

27 

29 

26 


Elabore uma analise comparativa do pre^o das duas a^oes, com base em: 

a) Medidas de posi^ao, como media, mediana e moda. 

b) Medidas de dispersao, como amplitude, variancia, desvio-padrao e erro-padrao. 

c) Existencia de outliers. 

d) Simetria e grau de achatamento da distribui^ao. 

e) Graficos de linhas, dispersao, ramo-e-folhas, histograma e boxplot. 
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17) Com o objetivo de determinar padroes sobre os investimentos em hospitals paulistas (R$ milhoes), um or- 
gao do Governo do Estado de Sao Paulo levantou os dados referentes a 15 hospitais, como mostra aTabela 2.48. 

Tabela 2.48 Investimento em 15 hospitals do Estado de Sao Paulo. 


Hospital 

Investimento 

A 

44 

B 

12 

C 

6 

D 

22 

E 

60 

F 

15 

G 

30 

H 

200 

I 

10 

j 

8 

K 

4 

L 

75 

M 

180 

N 

50 

O 

64 


Pede-se: 

a) Calcule a media aritmetica e o desvio-padrao da amostra. 

b) Elimine os possiveis outliers. 

c) Calcule novamente a media e o desvio-padrao da amostra resultante (sem os outliers). 

d) Explique o que podemos afirmar sobre o desvio-padrao da nova amostra (sem os outliers). 




Estatistica Descritiva Bivariada 


Os numeros governam o mundo. 

Platao 


Ao final deste capitulo, voce sera capaz de: 

• Compreender os principals conceitos de estatistica descritiva bivariada (que envolve duas variaveis). 

• Escolher o(s) metodo(s) adequado(s), incluindo tabelas, graficos e/ou medidas-resumo, para descrever o 
com porta men to das variaveis. 

• Estudar as associates entre duas variaveis qualitativas por meio de tabelas de contingency e medidas 
de associagao como qui-quadrado (para variaveis nominais e ordinais), coeficiente Phi , coeficiente de 
contingency e coeficiente l/de Cramer (todos para variaveis nominais) e coeficiente de Spearman (para 
variaveis ordinais). 

• Estudar as correlates entre duas variaveis quantitativas por meio de tabelas de distribuigao conjunta 
de frequencias, graficos como o diagrama de dispersao e medidas de correlagao como a covariancia e o 
coeficiente de correlagao de Spearman. 

• Gerar tabelas, graficos e medidas-resumo por meio do IBM SPSS Statistics Software® e do Stata Statistical 
Software®. 


3.1. INTRODUgAO 

O capitulo anterior trata da estatistica descritiva para uma unica variavel (estatistica descritiva univariada). Este 
capitulo apresenta os conceitos de estatistica descritiva envolvendo duas variaveis (analise bivariada). 

A analise bivariada tern como objetivo, portanto, estudar as relagoes (associates para variaveis qualitativas e 
correlates P ara variaveis quantitativas) entre duas variaveis. As relates podem ser estudadas por meio da distri¬ 
buigao conjunta de frequencias (tabelas de contingencia ou de classificagao cruzada - cross-tabulation), representa- 
goes graficas e, ainda, por meio de medidas-resumo. 

A analise bivariada sera estudada a partir de duas situates distintas: 

a) quando duas variaveis sao qualitativas; 

b) quando duas variaveis sao quantitativas. 

A Figura 3.1 apresenta as estatisticas descritivas bivariadas que serao estudadas neste capitulo, representadas por 
meio de tabelas, graficos e medidas-resumo, e apresenta as seguintes informates: 

a) As estatisticas descritivas utilizadas para representar o comportamento dos dados de duas variaveis quali¬ 
tativas sao: a) tabelas de distribuigao conjunta de frequencia, nesse caso especifico tambem denominadas 
tabelas de contingencia ou tabelas de classificagao cruzada ( cross-tabulation ); b) graficos, como mapas per¬ 
ceptual provenientes da tecnica de analise de correspondence (a ser estudada no Capitulo 11); c) medidas 
de associagao, como a estatistica qui-quadrado (utilizada para variaveis qualitativas nominais e ordinais), o 
coeficiente Phi , o coeficiente de contingencia e o coeficiente V de Cramer (todos baseados no qui-qua¬ 
drado e utilizados para variaveis nominais), alem do coeficiente de Spearman (para variaveis qualitativas 
ordinais). 
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b) No caso de duas variaveis quantitativas, utilizaremos tabelas de distribute conjunta de frequencias, repre- 
senta^oes graficas, como o diagrama de dispersao, alem de medidas de correla^ao, como a covariancia e o 
coeficiente de correla^ao de Pearson. 



Figura 3.1 Estatisticas descritivas bivariadas em fun$ao do tipo de variavel. 


3.2. ASSOCIA^AO ENTRE DUAS VARlAVEIS QUALITATIVAS 

O objetivo e avaliar se existe rela^ao entre as variaveis qualitativas ou categoricas estudadas, alem do grau de 
associa^ao entre elas. Isto pode ser feito por meio de tabelas de distributes de frequencias, medidas-resumo 
como o qui-quadrado (utilizado para variaveis nominais e ordinais), o coeficiente Phi , o coeficiente de contin¬ 
gency e o coeficiente V de Cramer (para variaveis nominais), e o coeficiente de Spearman (para variaveis ordi¬ 
nais), alem de representa^oes graficas como mapas perceptuais provenientes da analise de correspondency, a ser 
estudada no Capitulo 11. 

3.2.1. Tabelas de distribui^ao conjunta de frequencias 

A forma mais simples de resumir um conjunto de dados provenientes de duas variaveis qualitativas e por meio 
de uma tabela de distribui^ao conjunta de frequencias, neste caso especifico denominada tabela de contingen- 
cia ou tabela de classifica^ao cruzada ( cross-tabulation) ou, ainda, tabela de correspondencia que exibe, 
de forma conjunta, as frequencias absolutas ou relativas das categorias da variavel X, representada no eixo das 
abscissas, e da variavel Y, representada no eixo das ordenadas. 

E comum adicionarmos a tabela de contingency os totais marginais que correspondem a soma das linhas 
da variavel X e a soma das colunas da variavel Y. Ilustraremos essa analise por meio de um exemplo baseado em 
Bussab e Morettin (2011). 
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■ EXEMPLO 1 

Um estudo foi feito com 200 individuos para analisar o comportamento conjunto da variavel X (operadora 
de piano de saude) com a variavel Y (nivel de satisfagao). A tabela de contingencia exibindo a distribuigao con- 
junta de frequencias absolutas das variaveis, alem dos totais marginais, esta representada naTabela 3.1. Esses dados 
estao dispomveis no software SPSS no arquivo PlanoSaude.sav. 


Tabela 3.1 Distribuigao conjunta de frequencias 
absolutas das variaveis em estudo. 



Nivel de satisfagao 


Operadora 

Baixo 

Medio 

Alto 

Total 

Total Health 

40 

16 

12 

68 

Viva Vida 

32 

24 

16 

72 

Mena Saude 

24 

32 

4 

60 

Total 

96 

72 

32 

200 


O estudo tambem pode ser realizado com base nas frequencias relativas, conforme estudado no Capitulo 2, 
para problemas univariados. Bussab e Morettin (2011) apresentam tres formas de ilustrar a proporgao de cada 
categoria: 

a) em relagao ao total geral; 

b) em relagao ao total de cada linha; 

c) em relagao ao total de cada coluna. 

A escolha de cada opgao varia de acordo com o objetivo do problema. For exemplo, a Tabela 3.2 apresenta a 
distribuigao conjunta de frequencias relativas das variaveis em estudo em relagao ao total geral. 


Tabela 3.2 Distribuigao conjunta de frequencias relativas 
das variaveis em estudo em relagao ao total geral. 



Nivel de satisfagao 


Operadora 

Baixo 

Medio 

Alto 

Total 

Total Health 

20 % 

8 % 

6 % 

34% 

Viva Vida 

16% 

12 % 

8 % 

36% 

Mena Saude 

12 % 

16% 

2 % 

30% 

Total 

48% 

36% 

16% 

100% 


Inicialmente, analisaremos os totais marginais das linhas e colunas que fornecem as distribuigoes unidimen- 
sionais de cada variavel. Os totais marginais das linhas correspondem as somas das frequencias relativas de cada 
categoria da variavel Operadora e os totais marginais das colunas correspondem as somas de cada categoria da va¬ 
riavel Nivel de satisfagao. Assim, podemos concluir que 34% dos individuos pertencem a operadora Total Health, 
36% a Viva Vida e 30% a Mena Saude. Analogamente, concluimos que 48% dos individuos estao insatisfeitos com 
as operadoras (baixo nivel de satisfagao), 36% classificaram o nivel de satisfagao como medio e apenas 16% co- 
mo alto. 

Com relagao a distribuigao conjunta de frequencias relativas das variaveis em estudo (tabela de contin¬ 
gencia), podemos afirmar, por exemplo, que 20% dos individuos pertencem a operadora Total Health e clas¬ 
sificaram o nivel de satisfagao como baixo. A mesma logica e aplicada para as demais categorias da tabela de 
contingencia. 

Ja a Tabela 3.3 apresenta a distribuigao conjunta de frequencias relativas das variaveis em estudo em relagao 
ao total de cada linha. 





96 Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata ( 


Tabela 3.3 Distribute) conjunta de frequences relativas das 
variaveis em estudo em rela^ao ao total de cada linha. 



Nivel de satisfagao 


Operadora 

Baixo 

Medio 

Alto 

Total 

Total Health 

58,8% 

23,5% 

17,6% 

100% 

Viva Vida 

44,4% 

33,3% 

22,2% 

100% 

Mena Saude 

40% 

53,3% 

6,7% 

100% 

Total 

48% 

36% 

16% 

100% 


Podemos verificar, a partir da Tabela 3.3, que a propor^ao de individuos da operadora Total Health e com 
mvel de satisfagao baixo e de 58,8% (40/68), com mvel da satisfagao medio e de 23,5% (16/68) e com mvel de 
satisfagao alto e de 17,6% (12/68). A soma das propor^oes da respectiva linha e 100%. A mesma logica e aplicada 
para as demais linhas. 

Por fim, a Tabela 3.4 apresenta a distribui^ao conjunta de frequencias relativas das variaveis em estudo em re- 
la^ao ao total de cada coluna. 


Tabela 3.4 Distribui^ao conjunta de frequencias relativas das 
variaveis em estudo em rela^ao ao total de cada coluna. 



Nivel de satisfagao 


Operadora 

Baixo 

Medio 

Alto 

Total 

Total Health 

41,7% 

22,2% 

37,5% 

34% 

Viva Vida 

33,3% 

33,3% 

50% 

36% 

Mena Saude 

25% 

44,4% 

12,5% 

30% 

Total 

100% 

100% 

100% 

100% 


Desta forma, a propor^ao de individuos com mvel de satisfagao baixo e da operadora Total Health e de 41,7% 
(40/96), da operadora Viva Vida e de 33,3% (32/96) e da operadora Mena Saude e de 25% (24/96). A soma das 
propor^oes da respectiva coluna e 100%. A mesma logica e aplicada para as demais colunas. 

Elabora^ao de tabelas de contingencia por meio do software SPSS 

As tabelas de contingencia do Exemplo 1 serao geradas por meio do SPSS. A reprodu^ao das imagens neste 
capitulo tern autoriza^ao da International Business Machines Corporation®. 

Inicialmente, definiremos as propriedades de cada variavel no SPSS. As variaveis Operadora e Nivel de satisfagao 
sao qualitativas, mas sao representadas inicialmente na forma de numeros, como mostra o arquivo PlanoSaude_ 
SemRotulo.sav. Assim, rotulos correspondentes a cada categoria das duas variaveis devem ser criados, de modo 
que: 

Rotulos da variavel Operadora : 

1 = Total Health 

2 = Viva Vida 

3 = Mena Saude 

Rotulos da variavel Nivel de satisfagao , denominada simplesmente Satisfacao : 

1 = Baixo 

2 = Medio 

3 = Alto 

Logo, devemos clicar em Data —» Define Variable Properties... e selecionar as variaveis de interesse, de 
acordo com as Figuras 3.2 e 3.3. 
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UE PianoSaude.SemRotuio.sav [DataSetl] - IBM SPSS Statistics Data Editor 


File Edit View Data Transform .Analyze Direct Marketing Graphs Utilities Addons Window Help 


is H S 

Q3 Define Variable Properties... 

7& Set Measurement Level for Unknown... 

HI Copy Data Properties... 

§P New Gusto m Attribute.... . 

Us Define Dates... 

[HU Define Multiple Response Sets... 

tt 1 
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a 
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[ var 
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Validation ► 

el Identify Duplicate Cases... 
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H Sort Cases... 

EH Sort Variables... 
flU Transpose... 

Merge Files ► 

PPS Restructure... 

Hi Aggregate... 
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1 9 
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1 12 
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| 14 






15 


Copy Dataset 





| 16 


S Split File.. 
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17 






| 18 ■ 






| If 


--- 

ciyiu oaoco„. 
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j 20 ^ 

1,00 

1,00 







r 21 

1,00 
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Figura 3.2 Definindo as propriedades da variavel no SPSS. 


fJH Define Variable Properties 


i |mhiSSm3 ' 


Use this facility to label variable values and set other properties 
alter scanning the data. 


Select the variables to scan. They should be categorical (nominal 
or ordinal) for best results. You can change the measurement 
level setting in the next panel. 


Variables: 

Variables to Scan: 



l# Operadora 



j^> Satisfacao 1 


O Limit number of cases scanned to: jf 


] Omit number of values displayed to: 


200 



Figura 3.3 Sele^ao das variaveis de interesse. 
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Em seguida, devemos clicar em Continue. Note, por meio das Figuras 3.4 e 3.5, que as variaveis Operadora e 
Satisfacao foram definidas como nominal. Essa defini^ao tambem pode ser feita no ambiente Variable View. A 
defini^ao dos rotulos ( labels) deve ser elaborada neste momento e tambem pode ser visualizada nas Figuras 3.4 e 
3.5. Clicando em OK, o banco de dados inicialmente representado na forma de numeros passa a ser substituido 
pelos respectivos rotulos. No arquivo PlanoSaude.sav, os dados ja estao rotulados. 


j Define Variable Properties 


Scanned Variable List 

Un.~] Me JroI~ j Variable 
ial N Operadora 
[□I & %» Satisfacao 


Current Variable: |Operadora | Label: 

Measurement Level: |[ Suggest] Type: [Numeric 

Role: \ Input | Width: [8 

Unlabeled values: [o I 


_| Decimals: |2 

Attributes.. 


Value Label grid: ( | ) Enter or edit labels in the grid. You can enter additional values at the bottom. 



Changed 

Missing 

Count 

Value 

Label 


1 

Z 

□ 

68 

1.00 Total Health 


! 2 

z 

O 

72 

2,00 Viva Vida 


3 

PI 

□ 

60 

3,00 

Mena Saude 


: 4 

~ 

O 






Cases scanned: [200 | 
Value list limit |200 | 


pCopy Properties 


rUnlabeled Values- 





\ Define Variable Properties 


Scanned Variable List 

Un.-I MelRole] Variable 
□ ‘ &S Si Operadora 
(□J & ” N (Satisfacao 



Cases scanned: [200 | 
Value list limit [200 | 


Figura 3.4 Definigao dos rotulos da variavel Operadora. 


Current Variable: (Satisfacao [ Label: _ 

Measurement Level: <&, Nomi j ^ [[ suggest] Type: [Numeric 
Role: \ Input j^~] Width: [8 

Unlabeled values: K) 


_| Decimals: |2 

Attributes... 


Value Label grid: Jj ) Enter or edit labels in the grid. You can enter additional values at the bottom 
7 1 Changed I Missing f Count 1 Value 1 Label 


Changed 

Missing 

Count 1 

Value 

E 

~ 

96 

1,00 Baixo 

C 

~ 

72 

2,00 Medio 

IZ 

□ 

32! 

3,00 Alto 

0 

~ 

; 



Copy Properties- 


From Another Variable.. 



Figura 3.5 Defini^ao dos rotulos da variavel Satisfacao. 


Para a cria^ao de tabelas de contingencia (cross-tabulation), v amos clicar no menu Analyze —> Descriptive 
Statistics —» Crosstabs..., conforme mostra a Figura 3.6. 
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*PlanoSaude SemRotulo.iav;[DataSetl3 - IBM SPSS Statistics Data Editor 


Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Window Help 

gfi A 55 g* I Reg0lte - y i gn 5B a ,% s 

Z .. -— ; Mc= ± —— Descriptive Statistics > !| Frequencies... — 

- jCZ _ . — TaWeS t g D eSCHPffVe S... : "y ~ 

j Operadora jj Satisfacar Compare Means > ^.Explore f . Ji var 

1 | Total Health j Bab General Linear Model > : r—, I 


j .Operadora j 
Total Health 
Total Health 
Total Health 
Total Health 
"Total Health" 
Total Health 
"Total Health 
Total Health 
Total Health 


Generalized Linear Models > 
Mixed Models ► 

Correlate ► 

Regression > 

Loglinear ► 

Neural Networks t 

Classic > 

Dimension Reduction ► 


10 

Total Health 

Bab 

__ 

11. 

Total Health 

Bab 

Scale 

12 . 

Total Health 

Bab 

Non para m etric Tests 

13 

Total Health 

Bab 

Forecasting 

14 

Total Health 

Ban 

Survival 

15 

Total Health 

Bab 

Multiple Response 

16 

Total Health 

Bai) 

ffl Missing Value Analysis... 

If 

Total Health 

Bai) 

Multiple Imputation 

18 ' 

Total Health 

Bai) 

Complex Samples 

19 

Total Health 

Bai) 

Quality Control 

20 

Total Health 

Bab 

0 ROC Curve... 

21 

Total Health 

Baixo] . | s 


§1 Frequencies... 
H3 Descriptives... 
Jfyf Explore... 

0 Crosstabs... 
jj Ratio... 

13 P-P Plots... 
[goo Plots... 


Figura 3.6 Elaborate) de tabelas de contingencia (cross-tabulation) no SPSS. 


Selecionaremos a variavel Operadora em Row(s) (Linhas) e a variavel Satisfacao em Column(s) (Colunas). Em 
seguida, devemos clicar no botao Cell(s) ... (Celulas), conforme mostra a Figura 3.7. 



Figura 3.7 Criando uma tabela de contingencia. 

Para a cria^ao de tabelas de contingencia que representem a distribui^ao conjunta de frequences absolutas 
das variaveis observadas, a distribui^ao conjunta de frequences relativas em rela^ao ao total geral, a distribui^ao 
conjunta de frequencias relativas em rela^ao ao total de cada linha e a distribui^ao conjunta de frequencias re¬ 
lativas em rela^ao ao total de cada coluna (Tabelas 3.1 a 3.4), devemos, a partir da caixa de dialogo Crosstabs: 
Cell Display (aberta apos o clique no botao Cells...), selecionar a op^ao Observed em Counts e as op^oes 
Row, Column e Total em Percentages, como mostra a Figura 3.8. Por fim, vamos clicar em Continue e OK. 
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| Crosstabs: Cell Display ^ 




-Counts 

-z-test 

H Observed 

B Compare column proportions 

O Expected 

H Adjust p-vaiues (Bonferroni method) 

B Hide small counts 


Less than k 1 

LT__J 



•Percentages- 
H Row 
SI Column 


0 Total 


Residuals- 


d Unstandardized 
D Standardized 
B Adjusted standardized 


pNoninteger Weights-- 

# Round cell counts @ Round cas e weights 

© Truncate cell counts © Truncate case weights 
@ No adjustments 



Figura 3.8 Cria<;ao de tabelas de contingencia a partir da caixa de dialogo Crosstabs: Cell Display. 


A tabela de contingencia (tabela de classifica^ao cruzada) gerada pelo SPSS esta representada na Figura 3.9. 
Repare que os dados gerados sao exatamente iguais aqueles representados nas Tabelas 3.1 a 3.4. 


Operadora * Satisfacao Crosstabulation 



Satisfacao 



Baixo 

Medio 

Alto 

Total 

Operadora Total Health Count 

40 

16 

12 

68 

% within Operadora 

58,8% 

23,5% 

17,6% 

100,0% 

% within Satisfacao 

41,7% 

22,2% 

37,5% 

34,0% 

% of Total 


8,0% 

6,0% 

34,0% 

Viva Vida Count 

32 

24 

16 

72 

% within Operadora 

44,4% 

33,3% 

22,2% 

100,0% 

% within Satisfacao 

33,3% 

33,3% 

50,0% 

36,0% 

% of Total 

16,0% 

12,0% 

8,0% 

36,0% 

Mena Saude Count 

24 

32 

4 

60 

% within Operadora 

40,0% 

53,3% 

6,7% 

100,0% 

% within Satisfacao 

25,0% 

44,4% 

12,5% 

30,0% 

% of Total 

12,0% 

16,0% 

2,0% 

30,0% 

Total Count 

96 

72 

32 

200 

% within Operadora 

48,0% 

36,0% 

16,0% 

100,0% 

% within Satisfacao 

100,0% 

100,0% 

100,0% 

100,0% 

% of Total 

48,0% 

36,0% 

16,0% 

100,0% 


Figura 3.9 Tabela de classificaq:ao cruzada ( cross-tabulation ) gerada pelo SPSS. 


Elabora^ao de tabelas de contingencia por meio do software Stata 

Estudamos no Capitulo 2 como criar tabelas de distribuigao de frequences para uma unica variavel no Stata, 
por meio do comando tabulate, ou simplesmente tab. No caso de duas ou mais variaveis, se o objetivo for ge- 
rar tabelas de distribui^ao de frequences univariadas para cada variavel em analise, devemos utilizar o comando 
tabl, seguido da lista de variaveis. 
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A mesma logica deve ser aplicada para a cria^ao de tabelas de distribui^ao de frequencias conjuntas (tabelas 
de contingencia). Para gerar uma tabela de contingencia no Stata a partir das frequencias absolutas das variaveis 
observadas, devemos utilizar a seguinte sintaxe: 

tabulate variavell* variavel2* 

ou simplesmente: 

tab variavell* variavel2* 

em que os termos variavell* e variavel2* devem ser substituidos pelos nomes das respectivas variaveis. 

Se, alem da distribui^ao conjunta de frequencias absolutas das variaveis observadas, quisermos obter a distri- 
bui^ao conjunta de frequencias relativas em rela^ao ao total de cada linha, ao total de cada coluna e ao total geral, 
devemos utilizar a seguinte sintaxe: 

tabulate variavell* variavel2*, row column cell 

ou simplesmente: 

tab variavell* variavel2*, r co ce 

Considere um caso com mais de duas variaveis em estudo, em que o objetivo e gerar tabelas de distribui^ao 
de frequencias bivariadas ( two-way tables) para todas as combina^oes de variaveis, duas a duas. Nesse caso, utiliza- 
remos o comando tab2, com a seguinte sintaxe: 

tab2 variaveis* 

em que o termo variaveis* devera ser substituido pela lista de variaveis consideradas na analise. 

Analogamente, para obtermos, alem da distribui^ao conjunta das frequencias absolutas, as distributes con- 
juntas das frequencias relativas por linha, por coluna e pelo total geral, devemos utilizar a seguinte sintaxe: 

tab2 variaveis*, r co ce 

As tabelas de contingencia do Exemplo 1 serao geradas agora a partir do software Stata. Os dados estao dis— 
poniveis no arquivo PlanoSaude.dta. 

Assim, para a obten^ao da tabela de distribui^ao conjunta de frequencias absolutas, frequencias relativas por 
linha, frequencias relativas por coluna e frequencias relativas pelo total geral, devemos digitar o seguinte comando: 

tab operadora satisfacao, r co ce 

Os resultados estao ilustrados na Figura 3.10 e sao semelhantes aqueles apresentados na Figura 3.9 (SPSS). 


I . tab operadora satisfacao, 

r co ce 




+- 

—+ 





1 Key 

1___ 

1 





| frequency 

1 





| row percentage 

1 





1 | column percentage | 





| cell percentage 

1 





+- 

—+ 





1 

satisfacao 




operadora | 

baixo 

medio 

alto 

1 

Total 







total health | 

40 

16 

12 

1 

68 

1 

58.82 

23.53 

17.65 

1 

100.00 

1 

41.67 

22.22 

37.50 

1 

34.00 

1 

20.00 

8.00 

6.00 

1 

34.00 





1- 


viva vida | 

32 

24 

16 

1 

72 

1 

44.44 

33.33 

22.22 

1 

100.00 

1 

33.33 

33.33 

50.00 

1 

36.00 

1 

16.00 

12.00 

8.00 

1 

36.00 







mena saude | 

24 

32 

4 

1 

60 

1 

40.00 

53.33 

6.67 

1 

100.00 

1 

25.00 

44.44 

12.50 

1 

30.00 

! 

12.00 

16.00 

2.00 

1 

30.00 







Total | 

96 

72 

32 

1 

200 

1 

48.00 

36.00 

16.00 

1 

100.00 

1 

100.00 

100.00 

100.00 

1 

100.00 

1 

48.00 

36.00 

16.00 

1 

100.00 


Figure 3.10 Tabela de contingencia gerada pelo Stata. 
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3.2.2. Medidas de associa^ao 

As principals medidas que representam a associa^ao entre duas variaveis qualitativas sao: 

a) a estatistica qui-quadrado (% 2 ), utilizada para variaveis qualitativas nominais e ordinais; 

b) o coeficiente Phi , o coeficiente de contingencia e o coeficiente V de Cramer, aplicados para variaveis no¬ 
minais e baseados no qui-quadrado; 

c) o coeficiente de Spearman para variaveis ordinais. 


3.2.2.7. Estatfstica qui-quadrado 

A estatistica qui-quadrado (% 2 ) mede a discrepancia entre uma tabela de contingencia observada e uma tabela 
de contingencia esperada, partindo da hipotese de que nao ha associa^ao entre as variaveis estudadas. Se a dis— 
tribui^ao de frequencias observadas for exatamente igual a distribui^ao de frequencias esperadas, o resultado da 
estatistica qui-quadrado e zero. Assim, um valor baixo de X 2 indica independence entre as variaveis. 

A estatistica X 2 e dada por: 


7C 


-2 S 

i=l M 


E n 


(3.1) 


em que: 

O t yi quantidade de observa^oes na z-esima categoria da variavel X e na j-esima categoria da variavel Y; 

E {J :: frequencia esperada de observa^oes na z-esima categoria da variavel X e na j-esima categoria da variavel Y; 
/: quantidade de categorias (linhas) da variavel X; 

J: quantidade de categorias (colunas) da variavel Y. 


■ EXEMPLO 2 

Calcule a estatistica X 2 P ara o Exemplo 1. 


■ SOLU^AO 

A Tabela 3.5 apresenta os valores observados da distribui^ao com as respectivas frequencias relativas ao total 
geral da linha. O calculo tambem poderia ser efetuado em rela^ao ao total geral da coluna, chegando ao mesmo 
resultado da estatistica X 2 - 


Tabela 3.5 Valores observados de cada categoria com as respectivas proposes em rela^ao ao total geral da linha. 



Nivel de satisfa^ao 


Operadora 

Baixo 

Medio 

Alto 

Total 

Total Health 

40 (58,8%) 

16 (23,5%) 

12 (17,6%) 

68 (100%) 

Viva Vida 

32 (44,4%) 

24 (33,3%) 

16 (22,2%) 

72 (100%) 

Mena Saude 

24 (40%) 

32 (53,3%) 

4 (6,7%) 

60 (100%) 

Total 

96 (48%) 

72 (36%) 

32 (16%) 

200 (100%) 


Os dados da Tabela 3.5 apontam uma dependencia entre as variaveis. Supondo que nao houvesse associa^ao 
entre as variaveis, seria esperada a propor^ao de 48% em rela^ao ao total da linha para as tres operadoras no nivel 
de satisfa^ao baixo, 36% para o nivel medio e 16% para o nivel alto. O calculo dos valores esperados e apresenta- 
do na Tabela 3.6. Por exemplo, o calculo da primeira celula e 0,48 x 68 = 32,64. 


Tabela 3.6 Valores esperados da Tabela 3.5, assumindo a nao associa^ao entre as variaveis. 



Nivel de satisfa^ao 


Operadora 

Baixo 

Medio 

Alto 

Total 

Total Health 

32,6 (48%) 

24,5 (36%) 

10,9 (16%) 

68 (100%) 

Viva Vida 

34,6 (48%) 

25,9 (36%) 

11,5 (16%) 

72 (100%) 

Mena Saude 

28,8 (48%) 

21,6 (36%) 

9,6 (16%) 

60 (100%) 

Total 

96 (48%) 

72 (36%) 

32 (16%) 

200 (100%) 
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Para o calculo da estatistica J£ 2 , devemos aplicar a expressao (3.1) para os dados das Tabelas 3.5 e 3.6. O calcu- 

\2 

lo de cada termo —1 -— esta 

categorias. E-- 

Conforme sera estudado no Capitulo 7, que trata de testes de hipoteses, o nivel de significancia OC indica a 
probabilidade de rejeitar determinada hipotese quando ela for verdadeira. Ja o P-value representa a probabilidade 
associada ao valor observado da amostra, indicando o menor nivel de significancia que levaria a rejei^ao da hi¬ 
potese suposta. Em outras palavras, P-value representa um indice decrescente de confiabilidade de um resultado; 
quanto mais baixo seu valor, menos se pode acreditar na hipotese suposta. 

No caso da estatistica X 2 > cujo teste supoe a nao associa^ao entre as variaveis analisadas, a maioria dos softwa¬ 
res estatisticos, incluindo o SPSS e o Stata, calculam o correspondente P-value. Assim, para um nivel de confian- 
ga de 95%, se P-value < 0,05, a hipotese e rejeitada e podemos afirmar que ha associa^ao entre as variaveis. Por 
outro lado, se P-value > 0,05, conclui-se pela independence das variaveis. Todos esses conceitos serao estudados 
detalhadamente no Capitulo 7. No Capitulo 11, utilizaremos esses conceitos no estudo da tecnica bivariada de 
analise de correspondence. 

O Excel calcula o P-value da estatistica X 2 P or meio da fun^ao TESTE.QUI. Para isso, basta selecionarmos o 
conjunto de celulas correspondentes aos valores observados ou reais e o conjunto de celulas dos valores esperados. 


Tabela 3.7 Calculo da estatistica x 2 - 



Nivel de satisfa£ao 

Operadora 

Baixo 

Medio 

Alto 


1,66 

2,94 

0,12 

Viva Vida 

0,19 

0,14 

1,74 

Mena Saude 

0,80 

5,01 

3,27 

Total 

X 2 = 15,861 


representado na Tabela 3.7, juntamente com a medida X 2 resultante da soma das 


Resolu^ao da estatistica qui-quadrado por meio do software SPSS 

Analogamente ao Exemplo 1, o calculo da estatistica qui-quadrado (X 2 ) pelo SPSS tambem e gerado a partir 
do menu Analyze —» Descriptive Statistics —» Crosstabs.... Selecionaremos novamente a variavel Operadora 
em Row(s) e a variavel Satisfacao em Column(s). Inicialmente, para gerarmos os valores observados e espera¬ 
dos em caso de nao associa^ao entre as variaveis (dados das Tabelas 3.5 e 3.6), devemos clicar no botao Cells... e 
selecionar as op^oes Observed e Expected em Counts, a partir da caixa de dialogo Crosstabs: Cell Display 
(Figura 3.11). Na mesma caixa,para gerarmos os residuos padronizados ajustados, necessitamos selecionar a op^ao 
Adjusted standardized em Residuals. Os resultados sao apresentados na Figura 3.12. 





-z-test 

B Compare column proportions 
■ Adjust p-values (Bonferroni method) 

-Percentages-- 

1 

-Residuals —■———“— 

QRow 


H Unstandardlzed 

H Column 

I 

D Standardized 

HTofai 

1 

M Adjusted standardized 


-Noninteger Weights——-—-—- 

# Round cell counts O Round case weights 
O Truncate cell counts ® Truncate case weights 
O No adjustments 



Figura 3.11 Gerando a tabela de contingencia com as frequencias observadas, as frequencias esperadas e os resfduos. 
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Operadora * Satisfacao Crosstabulation 



Satisfacao 



Baixo 

Medio 

Alto 

Total 

Operadora Total Health Count 

40 

16 

12 

68 

Expected Count 

32,6 

24,5 

10,9 

68,0 

Adjusted Residual 

2,2 

-2,6 

,5 


Viva Vida Count 

32 

24 

16 

72 

Expected Count 

34,6 

25,9 

11,5 

72,0 

Adjusted Residual 

-,8 

-,6 

1,8 


Mena Saude Count 

24 

32 

4 

60 

Expected Count 

28,8 

21,6 

9,6 

60,0 

Adjusted Residual 

-1,5 

3,3 

-2,4 


Total Count 

96 

72 

32 

200 

Expected Count 

96,0 

72,0 

32,0 

200,0 


Figura 3.12 Tabela de contingency com os valores observados, os valores esperados 
e os residuos, assumindo a nao associagao entre as variaveis. 


Para o calculo da estatistica no botao Statistics..., devemos selecionar a op^ao Chi-square (Figura 3.13). 
E por fim, vamos clicar em Continue e OK. O resultado e apresentado na Figura 3.14. 


Hfljl Crosstabs; Statistics •• ‘ 'Mllth 






i 

! [g] phi-square 

“J 

0 Correlations 


wumirtai 


uioifiai 




0 Contingency coefficient 


0 Gamma 




0 Phi and Cramer's V 


0 Somers* d 




0 Lambda 


0 Kendall’s tau-b 



0 Uncertainty coefficient 


0 Kendall’s tau-c 



-Nominal by Interval 


0 Kappa 



ID Ha 


DRjsfc 





O McNemar 


0 Cochran's and Mantel-Haenszel statistics 

■ 

Test common odds ratio equals: 

1 



1 


Figura 3.13 Selegao da estatistica x 2 - 


Chi-Square Tests 



Value 

df 


Pearson Chi-Square 

15,861 a 

■B 

,003 

Likelihood Ratio 

16,302 

HI 

,003 

Linear-by-Linear 

Association 

,429 


,512 

N of Valid Cases 

200 




a. 0 cells (,0%) have expected countless than 5. The minimum 
expected count is 9,60. 


Figura 3.14 Resultado da estatistica % 2 . 
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Pela Figura 3.14, podemos verificar que o valor de X 2 e 15,861, semelhante ao calculado na Tabela 3.7. 
Observamos tambem que o menor nivel de significance que levaria a rejei^ao da hipotese de nao associa^ao 
entre as variaveis ( P-value ) e 0,003. Como 0,003 < 0,05 (para um nivel de confian^a de 95%), a hipotese nula e 
rejeitada, o que permite concluir que ha associa^ao entre as variaveis. 

Procedimento similar tambem sera realizado quando do estudo da tecnica bivariada de analise de correspon¬ 
dence no Capitulo 11. 

Resolugao da estatistica % 2 por meio do software Stata 

Vimos na se^ao 3.2.1 como elaborar tabelas de contingencia no Stata por meio do comando tabulate, ou 
simplesmente tab. Alem das frequencias observadas, esse comando tambem disponibiliza as frequencias esperadas 
por meio da op^ao expected, ou simplesmente exp, assim como o calculo da estatistica X 2 utilizando a op^ao 
chi2, ou apenas ch. Para os dados do Exemplo 1 disponiveis no arquivo PlanoSaude.dta, para obtermos as ta¬ 
bela de distribui^ao de frequencias observadas e esperadas, juntamente com o calculo da estatistica X 2 > utilizare- 
mos o seguinte comando: 

tab operadora satisfacao, exp ch 

Porem, o comando tab nao permite que sejam gerados os residuos nos outputs. Como alternativa, o coman¬ 
do tabchi foi desenvolvido a partir de um modulo de tabula^o criado por Nicholas J. Cox, fazendo com que 
os residuos padronizados ajustados sejam tambem calculados. Para que esse comando seja utilizado, devemos ini- 
cialmente digitar: 

findit tabchi 

e instala-lo no link tab chi from http://fmwww.bc.edu/RePEc/bocode/t . Feito isso, podemos digitar o se¬ 
guinte comando: 

tabchi operadora satisfacao, a 

O resultado esta ilustrado na Figura 3.15 e e semelhante aqueles apresentados nas Figuras 3.12e3.14do sof¬ 
tware SPSS. Repare que, diferentemente do comando tab, que requer a op^ao exp para que sejam geradas as 
frequencias esperadas, o comando tabchi ja as disponibiliza automaticamente. 


. tabchi operadora satisfacao, a 

observed frequency 
expected frequency 
adjusted residual 


satisfacao 


operadora j 

baixo 

medio 

alto 





total health | 

40 

16 

12 


32.640 

24.480 

10.880 


2.199 

-2.637 

0.456 

viva vida | 

32 

24 

16 


34.560 

25.920 

11.520 


-0.755 

-0.589 

1.800 

mena saude | 

24 

32 

4 


28.800 

21.600 

9.600 


-1.482 

3.343 

-2.357 


Pearson chi2(4) = 15.8606 Pr = 0.003 

likelihood-ratio chi2(4) = 16.3023 Pr = 0.003 


Figura 3.15 Resultado da estatistica X 2 no Stata. 


Tambem faremos uso desses procedimentos quando do estudo da tecnica bivariada de analise de correspon¬ 
dence no Capitulo 11. 


3.2.2.2. Outras medidas de associaqao baseadas no qui-quadrado 

As principals medidas de associa^ao baseadas na estatistica qui-quadrado (X 2 ) sao: Phi , V de Cramer e coefi- 
ciente de contingencia (Q, todas aplicadas para variaveis qualitativas nominais. 
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Em geral, um coeficiente de associa^ao ou correla^ao e uma medida que varia entre 0 e 1, apresentando valor 
0 quando nao houver rela^ao entre as variaveis e valor 1 quando forem relacionadas perfeitamente.Veremos co- 
mo cada um dos coeficientes estudados nesta se^ao se comportam em rela^ao a essas caracteristicas. 


a) Coeficiente Phi 

O coeficiente Phi e a medida de associa^ao mais simples para variaveis nominais baseada no X 2 -> podendo 
ser expresso da seguinte forma: 



(3.2) 


Para que Phi varie apenas entre 0 e 1, e necessario que a tabela de contingencia seja de dimensao 2x2. 


■ EXEMPLO 3 

A fim de oferecer servi^os de qualidade que atendam as expectativas de seus clientes, a empresa Ivanblue, que 
atua no ramo de moda masculina, esta investindo em estrategias de segmenta^ao de mercado. Atualmente, a em¬ 
presa possui quatro lojas na cidade de Campinas, localizadas nas regioes Norte, Centro, Sul e Leste, e comercia- 
liza quatro tipos de roupa: gravata, camisa social, camisa polo e cal^a. A Tabela 3.8 apresenta dados da compra de 
20 consumidores, como o tipo de roupa e a localiza^ao da loja.Verifique se ha associa^ao entre as duas variaveis 
utilizando o coeficiente Phi. 


Tabela 3.8 Dados de compra de 20 consumidores. 


Consumidor 

Roupa 

Regiao 

1 

Gravata 

Sul 

2 

Camisa polo 

Norte 

3 

Camisa social 

Sul 

4 

Cal^a 

Norte 

5 

Gravata 

Sul 

6 

Camisa polo 

Centro 

7 

Camisa polo 

Leste 

8 

Gravata 

Sul 

9 

Camisa social 

Sul 

10 

Gravata 

Centro 

11 

Cal$a 

Norte 

12 

Cal^a 

Centro 

13 

Gravata 

Centro 

14 

Camisa polo 

Leste 

15 

Cal^a 

Centro 

16 

Gravata 

Centro 

17 

Cal$a 

Sul 

18 

Cal^a 

Norte 

19 

Camisa polo 

Leste 

20 

Camisa social 

Centro 


■ soLugAo 

Utilizando o procedimento descrito na se^ao anterior, o valor da estatistica qui-quadrado e X 2 ~ 18,214. Logo: 



= 0,954 
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Como o numero de categorias de ambas as variaveis e 4, neste caso a cond^ao 0 < Phi < 1 nao e valida, difi— 
cultando a interpreta^ao da intensidade da associa^ao. 

b) Coeficiente de contingencia 

O coeficiente de contingencia (Q, tambem conhecido como coeficiente de contingencia de Pearson, 
e outra medida de associa^ao para variaveis nominais baseada na estatistica X 2 , sendo representado pela seguinte 
expressao: 


C = 


*L 

i+X 2 


(3.3) 

em que n corresponde ao tamanho da amostra. 

O coeficiente de contingencia (Q tem como limite inferior o valor 0, indicando que nao existe rela^ao entre 
as variaveis, porem o limite superior de C varia em fun^ao da quantidade de categorias, de modo que: 


0<C< 


3-1 


em que: 


V 3 

q = min (I,J) 

sendo I a quantidade de linhas e J a quantidade de colunas de uma tabela de contingencia. 


(3.4) 

(3.5) 


Quando C~ 


1-1 


, existe uma associa^ao perfeita entre as variaveis, porem, esse limite nunca assume o 


valor 1. Dois coeficientes de contingencia so podem entao ser comparados se ambos forem definidos a partir de 
tabelas com a mesma quantidade de linhas e colunas. 

■ EXEMPLO 4 

Calcule o coeficiente de contingencia (Q para os dados do Exemplo 3. 

■ SOLU^AO 

O calculo de Ce: 

I v 2 I 1ft 91 A 

-0,690 

20 + 18,214 

Como a tabela de contingencia e de dimensao 4 x 4 (q = min(4,4) =4), os valores que C pode assumir per- 
tencem ao intervalo: 



0<C<^j-->0<C<0,866 

Podemos concluir que existe associa^ao entre as variaveis. 

c) Coeficiente V de Cramer 

Outra medida de associa^ao para variaveis nominais baseada na estatistica X 2 e o coeficiente V de Cramer, 
calculado por: 


V = 


X 


(3.6) 


em que q = min(J,J), conforme apresentado na expressao (3.5). i—— 

Para tabelas de contingencia de dimensao 2 x 2, a expressao (3.6) resume-se a y = que corresponde ao 
coeficiente Phi. V n 

O coeficiente V de Cramer e uma alternativa ao coeficiente Phi e ao coeficiente de contingencia (Q, e seu va¬ 
lor esta sempre limitado ao intervalo [0,1], independentemente da quantidade de categorias nas linhas e colunas: 

0 < V< 1 (3.7) 

O valor 0 indica que as variaveis nao tem nenhum tipo de associa^ao e o valor 1 revela que elas sao perfeitamente 
associadas. O coeficiente V de Cramer permite, portanto, comparar tabelas de contingencia de diferentes dimensoes. 
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■ EXEMPLO 5 

Calcule o coeficiente V de Cramer para os dados do Exemplo 3. 


■ solu^Ao 


V = . 


X 


1) 


18,214 

20*3 


= 0,551 


Como 0 < V< 1, existe associagao entre as variaveis, porem, considerada nao muito forte. 


Resolu^ao dos Exemplos 3,4 e 5 (calculo dos coeficientes Phi, de contingencia e V de Cramer) 
por meio do SPSS 

Na segao 3.2.1, apresentamos como criar rotulos correspondentes as categorias das variaveis a partir do menu 
Data —» Define Variable Properties.... O mesmo procedimento deve ser aplicado para os dados daTabela 3.8 
(nao podemos esquecer de definir o tipo das variaveis como nominal). O arquivo Sementa 9 ao_Mercado.sav 
disponibiliza esses dados ja tabulados no SPSS. 

Analogamente ao calculo da estatistica j£ 2 , o calculo dos coeficientes Phi , de contingencia (Qe V de Cramer 
pelo SPSS tambem sao gerados a partir do menu Analyze —> Descriptive Statistics —> Crosstabs.... Vamos 
selecionar a variavel Roupa em Row(s) e a variavel Regiao em Column(s). 

No botao Statistics..., selecionaremos agora as op^oes Contingency coefficient e Phi and Cramer’s V 
(Figura 3.16). Repare que esses coeficientes sao calculados para variaveis nominais. Os resultados das estatisticas 
sao apresentados na Figura 3.17. 


0 Chi-square 


H Correlations 


-Nominal 

II 

P 

n 

0 Uncertainty coefficient 

-Nominal by Interval-™™ 
0 Eta 


Contingency coefficient 
Phi and Cramer's V j 
Lambda 


-Ordinal———— 
; H Gamma 
0 Somers* d 
0 Kendall's tau-b 
10 Kendall's tau-c 

O Kappa 
H Rfslc 
0i McNemar 


0 Cochran’s and Mantel-Haenszel statistics 
Test common odds ratio equals: i 



Figura 3.16 Sele^ao do coeficiente de contingencia e dos coeficientes Phi e Vde Cramer. 


Symmetric Measures 



Value 

Approx. Sig. 

Nominal byNominal Phi 

,954 

,033 

Cramer's V 

,551 

,033 

Contingency Coefficient 

,690 

,033 

N of Valid Cases 

20 



Figura 3.17 Resultado do coeficiente de contingencia e dos coeficientes Phi e V de Cramer. 
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Para os tres coeficientes, o P-value de 0,033 (0,033 < 0,05) indica que ha associanao entre as variaveis em 
estudo. 

Resolu^ao dos Exemplos 3 e 5 (calculo dos coeficientes Phi eVde Cramer) por meio do Stata 

O Stata calcula os coeficientes Phi e V de Cramer por meio do comando phi. Desta forma, os mesmos serao 
calculados para os dados do Exemplo 3 disponiveis no arquivo SegmentanaoJYlercado.dta. 

Para que o comando phi seja utilizado, devemos inicialmente digitar: 

findit phi 

e instala-lo no link snp3.pkq from http://www.stata.com/stb/stb3/ . Feito isso,podemos digitar o seguin- 
te comando: 

phi roupa regiao 

Os resultados sao apresentados na Figura 3.18. Repare que o coeflciente Phi no Stata e chamado Cohen's w. 
Ja o coeflciente V de Cramer e denominado Cramer's phi-prime. 


. phi roupa regiao 

| regiao 

roupa | norte centro sul leste | Total 

- + -+- 

gravata | 0 3 3 0 | 6 

camisa social | 0 1 2 0 | 3 

camisa polo | 1 1 0 3 | 5 

calga | 3 2 1 0 | 6 

- -———-—-—---+——- 

Total | 4 7 6 3 1 20 

Pearson chi2(9) = 18.2143 Pr = 0.033 

Cramer's phi-prime = 0.5510 Cohen's w = 0.9543 

Figura 3.18 Calculo dos coeficientes Phi e Vde Cramer pelo Stata. 

3.2.23. O coeflciente de Spearman 

O coeflciente de Spearman (r ) e uma medida de associanao entre duas variaveis qualitativas ordinais. 
Inicialmente, devemos ordenar o conjunto de dados da variavel X e da variavel Y de forma crescente. A partir 
dessa ordena<;ao, e possivel criar postos ou rankings , denotados por k(k- l,...,n). A atribui^ao desses postos e feita 
isoladamente para cada variavel. O posto 1 e entao atribuido ao menor valor da variavel, o posto 2 ao segundo 
menor valor, e assim por diante, ate o posto n para o maior valor. Em caso de empate entre os valores de ordem 
k e fe+1, devemos atribuir o posto k + 1/2 para ambas as observances. 

O calculo do coeflciente de Spearman pode ser elaborado por meio da seguinte expressao: 

6 l i\ 

r = 1-—- 

n-(n 2 —1) (3.8) 

em que: 

n: numero de observances (pares de valores); 
d k : diferenna entre os postos de ordem k. 

O coeflciente de Spearman e uma medida que varia entre -1 e 1. Se r sp = 1, todos os valores de d k sao nulos, 
indicando que todos os postos sao iguais para as variaveis X e Y (associanao positiva perfeita). O valor r sp = -1 e 

n / 2 a \ 

encontrado quando ^i atingir seu valor maximo (ha a inversao nos valores dos postos das varia- 

k=i ^ 

veis), indicando uma associanao negativa perfeita. Quando r = 0, nao ha associanao entre as variaveis X e Y. 
A Figura 3.19 apresenta o resumo dessa interpretanao. 
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-1 


0 


+1 


associagao linear 
negativa perfeita entre 
as variaveis Xe Y 


nao existe associagao 
entre as variaveis Xe Y 


associagao linear 
positiva perfeita entre 
as variaveis Xe Y 


Figura 3.19 Interpretagao do coeficiente de Spearman. 


Essa interpretagao e semelhante ao do coeficiente de correlagao de Pearson que sera estudado na segao 3.3.3.2. 

■ EXEMPLO 6 

O coordenador do curso de graduagao em Administragao esta analisando se existe algum tipo de associagao 
entre as notas de 10 alunos em duas disciplinas: Simulagao e Finangas. Os dados do problema estao representados 
naTabela 3.9. Calcule o coeficiente de Spearman. 

Tabela 3.9 Notas das disciplinas de Simulagao e Finangas dos 10 alunos analisados. 



Notas 

Aluno 

Simulagao 

Finangas 

1 

4,7 

6,6 

2 

6,3 

5,1 

3 

7,5 

6,9 

4 

5,0 

7,1 

5 

4,4 

3,5 

6 

3,7 

4,6 

7 

8,5 

6,8 

8 

8,2 

7,5 

9 

3,5 

4,2 

10 

4,0 

3,3 


■ SOLU^AO 

Para o calculo do coeficiente de Spearman, inicialmente, atribuiremos postos a cada categoria de cada variavel 
em fungao dos respectivos valores, como mostra a Tabela 3.10. 


Tabela 3.10 Postos das disciplinas de simulagao e finangas dos 10 alunos. 



Postos 



Aluno 

Simulagao 

Finangas 

d k 

dt 

1 

5 

6 

-1 

1 

2 

7 

5 

2 

4 

3 

8 

8 

0 

0 

4 

6 

9 

-3 

9 

5 

4 

2 

2 

4 

6 

2 

4 

-2 

4 

7 

10 

7 

3 

9 

8 

9 

10 

-1 

1 

9 

1 

3 

-2 

4 

10 

3 

1 

2 

4 

Soma 




40 
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Aplicando a expressao (3.8), temos: 




k=i 


r = 1 — 

w(n 2 -l) 


= 1- 6X40 =0,758 
10x99 


O valor 0,758 indica uma associaqao positiva forte entre as variaveis. 


Calculo do coeficiente de Spearman por meio do software SPSS 

O arquivo Notas.sav apresenta os dados do Exemplo 6 (postos daTabela 3.9) tabulados em escala ordinal 
(definida no ambiente Variable View). 

Analogamente ao calculo da estatistica X 2 e dos coeficientes Phi, de contingencia (C) e V de Cramer, o coe¬ 
ficiente de Spearman tambem pode ser gerado pelo SPSS a partir do menu Analyze —> Descriptive Statistics 
—> Crosstabs Vamos selecionar a variavel Simulagao em Row(s) e a variavel Finangas em Column(s). 

No botao Statistics..., selecionaremos a op^ao Correlations (Figura 3.20). Clicaremos em Continue e, na 
sequencia, em OK. O resultado do coeficiente de Spearman e apresentado na Figura 3.21. 


| Crosstabs: Statistics 


□ Chi-square 
Nominal- 


□ Contingency coefficient 
E Phi and Cramer's V 

□ Lambda 

□ Uncertainty coefficient 


S3 {Correlations 
Ordinal-——— 

□ Gamma 

□ Somers’ d 

□ Kendall’s tau-b 
O Kendall’s tau-c 


-Nominal by Interval- 
El Eta 


E Kappa 
E Risk 
□ MeNemar 


E Cochran’s and Mantet-Haenszet statistics 

Jest common odds ratio equals: i 


Continue 


Cancel 




i_£!£_w 


Figura 3.20 Calculo do coeficiente de Spearman a partir da caixa de dialogo Crosstabs: Statistics. 


Symmetric Measures 



Value 

Asymp. Std. 
Error 3 

Approx T b 

Approx Sig. 

Interval by Interval Pearson's R 

,758 

,069 

3,283 

| 

Ordinal by Ordinal Spearman Correlation 

,758 

,074 

3,283 


N of Valid Cases 

10 



I 


a. Not assuming the null hypothesis. 

b. Using the asymptotic standard error assuming the null hypothesis. 

c. Based on normal approximation. 


Figura 3.21 Resultado do coeficiente de Spearman a partir da caixa de dialogo Crosstabs: Statistics. 
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O P-value de 0,011 < 0,05 (sob hipotese de nao associagao entre as variaveis) indica que ha associagao entre 
as notas de Simulagao e Finangas a 95% de confianga. 

O calculo do coeficiente de Spearman tambem pode ser gerado a partir do menu Analyze —> Correlate 
—> Bivariate.... Devemos selecionar as variaveis de interesse, alem do coeficiente de Spearman, como mostra a 
Figura 3.22.Vamos clicar em OK, resultando na Figura 3.23. 


Bivariate Correlations 


m 1 



r Correlation Coefficients- 


□ Pearson O Kendall's tau-b H lSpearmari 


~ Test of Significance- 

® Two-tailed © One-tailed 


H Oag significant correlations 





Figura 3.22 Calculo do coeficiente de Spearman a partir da caixa de dialogo Bivariate Correlations. 


Correlations 



Simulagao 

Finangas 

Spearman's rho Simulagao Correlation Coefficient 


,758* 

Sig. (2-tailed) 


,011 

N 

10 

■KH 

Finanfas Correlation Coefficient 

,758* 

a 

Sig. (2-tailed) 

,011 

1 1 

N 

10 



*. Correlation is significant at the 0.05 level (2-tailed). 

Figura 3.23 Resultado do coeficiente de Spearman a partir da caixa de dialogo Bivariate Correlations. 


Calculo do coeficiente de Spearman por meio do software Stata 

O coeficiente de Spearman no Stata e calculado a partir do comando spearman. Assim, para os dados do 
Exemplo 6 dispomveis no arquivo Notas.dta, devemos digitar o seguinte comando: 

spearman simulagao finangas 

Os resultados sao apresentados na Figura 3.24. 
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. spearman simulagao finangas 

Number of obs = 10 

Spearman's rho = 0.7576 

Test of Ho: simulaq:ao and finangas are independent 
Prob > |t| = 0.0111 _ 


Figura 3.24 Resultado do coeficiente de Spearman no Stata. 


3.3. correla^Ao entre duas variaveis quantitativas 

O objetivo nesta segao e avaliar se existe rela^ao entre as variaveis quantitativas estudadas, alem do grau de cor- 
rela^ao entre elas. Isto pode ser feito por meio de tabelas de distributes de frequences, representa^oes graficas, 
como o diagrama de dispersao, alem de medidas de correla^ao, como a covariancia e o coeficiente de correla^ao 
de Pearson. 

3.3.1. Tabelas de distribui^ao conjunta de frequences 

O mesmo procedimento apresentado para variaveis qualitativas pode ser utilizado para representar a distribui- 
£ao conjunta de variaveis quantitativas e analisar as possiveis relates entre as respectivas variaveis. Analogamente 
ao estudo da estatistica descritiva univariada, dados contmuos que nao se repetem com certa frequencia podem 
ser agrupados em intervalos de classes. 

3.3.2. Representa^ao grafica por meio de um diagrama de dispersao 

A correla^ao entre duas variaveis quantitativas pode ser representada de forma grafica por meio de um dia¬ 
grama de dispersao. Ele representa graficamente os valores das variaveis X e Y em um piano cartesiano. Um 
diagrama de dispersao permite, portanto, avaliar: 

a) se existe ou nao alguma rela^ao entre as variaveis em estudo; 

b) o tipo de rela^ao entre as duas variaveis, isto e, a dire^ao em que a variavel Y aumenta ou diminui em fun- 
£ao da varia^ao de X; 

c) o grau de rela^ao entre as variaveis; 

d) a natureza da rela^ao (linear, exponencial, etc.). 

A Figura 3.25 apresenta um diagrama de dispersao em que a rela^ao entre as variaveis X e Y e linear positiva 
forte, isto e, a varia^ao de Y e diretamente proporcional a varia^ao de X, o grau de rela^ao entre as variaveis e 
forte e a natureza da rela^ao e linear. 



Figura 3.25 Rela^ao linear positiva forte. 


Se todos os pontos estiverem contidos em uma reta, temos um caso em que a rela^ao e linear perfeita, con- 
forme mostra a Figura 3.26. 
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Figura 3.26 Rela$ao linear positiva perfeita. 


Ja as Figuras 3.27 e 3.28 apresentam um diagrama de dispersao em que a rela^ao entre as variaveis X e Y 
linear negativa forte e linear negativa perfeita, respectivamente. 



. ^ 

• 

• 

• 

• 

• 

• 

• 

• 

* 

J 

v _ 

j 


Figura 3.27 Rela^ao linear negativa forte. 



Figura 3.28 Rela^ao linear negativa perfeita. 


Por fim, podemos estar diante de um caso em que nao ha nenhuma rela^ao entre as variaveis X e Y, confor 
me mostra a Figura 3.29. 
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Figura 3.29 Nao existe rela$ao entre as variaveis XeY. 


Gerando um diagrams de dispersao no SPSS 

■ EXEMPL0 7 

Vamos abrir o arquivo Renda_Estudo.sav no SPSS. O objetivo e analisar a correla^ao entre as variaveis 
Renda Familiar e Anos de Estudo por meio de um diagrama de dispersao. Para isso, vamos clicar em Graphs —> 
Legacy Dialogs —> Scatter/Dot... (Figura 3.30). Na janela Scatter/Dot da Figura 3.31, escolheremos o gra- 
fico do tipo Simple Scatter. Clicando em Define, sera aberta a caixa de dialogo Simple Scatterplot, como 
mostra a Figura 3.32. Selecionaremos a variavel Renda Familiar no eixo Yea variavel Anos de Estudo no eixo X. 
E, na sequencia, clicaremos em OK. O grafico de dispersao gerado esta representado na Figura 3.33. 


i 


*„ Renda_Estudo.sav [DataSet6] - IBM SPSS Statistics Data Editor 


| Rle Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Window Help 


E 


IT' f% 



■ Chart Builder... 

13 Graphboard Template Chooser... 


a 
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% 
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r 
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■ Histogram,.. 

— T - j - r 


Figura 3.30 Gerando um diagrama de dispersao no SPSS. 
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Simple Scatterplot 



Template- 


L_J \\& Renda Familiar (Ren daFamifiarjll 

0 X Axis: _ 

[_^ ae EstudolAnosdeEstudojl] 

r—, Set Markers by: 

1 ^ 1 | “ | 


- Label Cases by: 


-Panel by- 


FI Nest variables (no empty ro ws) 


13 Nest variables (no empty columns) 


O |Use chart specifications from: 


OK II Paste II Reset || Cancel 11 Hell 


Figura 3.32 Caixa de dialogo Simple Scatterplot. 
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Figura 3.33 Diagrama de dispersao das variaveis Renda Familiar e Anos de Estudo. 
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Pela Figura 3.33, podemos verificar uma correla^ao positiva forte entre as variaveis Renda Familiar e Anos de 
Estudo. Portanto, quanto maior o numero de anos estudados, maior sera a renda familiar, mesmo que nao haja, 
necessariamente, rela^ao causa e efeito. 

O grafico de dispersao tambem pode ser gerado pelo Excel selecionando-se a op^ao Dispersao. 

Gerando um diagrama de dispersao no Stata 

Os dados do Exemplo 7 tambem estao disponiveis no software Stata a partir do arquivo Renda_Estudo.dta. 
As variaveis em estudo denominam-se rendafamiliar e anosdeestudo. 

O diagrama de dispersao no Stata e gerado a partir do comando twoway scatter (ou simplesmente tw sc) 
seguido pelas variaveis de interesse. Assim, para analisar a correla^ao entre as variaveis Renda Familiar e Anos de 
Estudo por meio de um diagrama de dispersao no Stata, devemos digitalizar o seguinte comando: 

tw sc rendafamiliar anosdeestudo 

O diagrama de dispersao resultante esta representado na Figura 3.34. 



Figura 3.34 Diagrama de dispersao no Stata. 


3.3.3. Medidas de correla^ao 

As principais medidas de correla^ao utilizadas para variaveis quantitativas sao a covariancia e o coeficiente de 
correla^ao de Pearson. 

33.3.1. Covariancia 

A covariancia mede a varia^ao conjunta entre duas variaveis quantitativas X e Y, e sua expressao e dada por: 

n 

^(x-xy(Y-Y) 

cov(X,y)=-^- (3.9) 

em que: n ~ 1 

Xf. z-esimo valor de X; 

Yf. z-esimo valor de Y; 

X: media dos valores de X { ; 

Y:: media dos valores de Y-; 
n: tamanho da amostra. 
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Uma das limitagoes da covariancia e que a medida depende do tamanho da amostra, podendo levar a uma 
estimativa ruim em casos de pequenas amostras. O coeficiente de correlagao de Pearson e a alternativa para esse 
problema. 

■ EXEMPLO 8 

Considere novamente os dados do Exemplo 7 referentes as variaveis Renda Familiar e Anos de Estudo. Os dados 
tambem estao dispomveis em Excel no arquivo Renda_Estudo.xls. Calcule a covariancia da matriz de dados 
das duas variaveis. 


■ SOLU?AO 

Aplicando a expressao (3.9), chegamos a: 


cov(X,Y) = 


(7,6-7,08)-(1.961-1.856,22)H-l-(5,4-7,08)-(775-1.856,22) 72.326,93 


95 


95 


= 761,336 


A covariancia pode ser calculada pelo Excel utilizando-se a fungao COVAR. Porem, o termo do denomina- 
dor e n em vez de n -1 (a expressao e aplicada para a populagao em vez da amostra). Devemos selecionar o inter- 
valo de celulas de cada variavel; o resultado da covariancia pelo Excel e de 753,405. 

Mostraremos tambem como a covariancia pode ser calculada pelo SPSS na proxima segao, juntamente com o 
coeficiente de correlagao de Pearson. O SPSS considera a mesma expressao apresentada nesta segao. 


3.33.2. Coeficiente de correlagao de Pearson 

O coeficiente de correlagao de Pearson (p) e uma medida que varia entre -lei. Por meio do sinal, e possi- 
vel verificar o tipo de rela^ao linear entre as duas variaveis analisadas (dire^ao em que a variavel Y aumenta ou 
diminui em fun^ao da varia^ao de X); quanto mais proximo dos valores extremos, mais forte e a correla^ao entre 
elas. Logo: 

• Se p for positivo, existe uma rela^ao diretamente proporcional entre as variaveis; se p = 1, tem-se uma corre- 
la^ao linear positiva perfeita. 

• Se p for negativo, existe uma rela^ao inversamente proporcional entre as variaveis; se p = “1, tem-se uma cor- 
rela^ao linear negativa perfeita. 

• Se p for nulo, nao existe correla^ao entre as variaveis. 

A Figura 3.35 apresenta um resumo da interpreta^ao do coeficiente de correla^ao de Pearson. 


r 


0 


+1 


correlagao linear nao existe correlagao correlagao linear 

negativa perfeita entre entre as variaveis Xe Y positiva perfeita entre 

as variaveis Xe V as variaveis Xe Y 


Figura 3.35 Interpretagao do coeficiente de correlagao de Pearson. 


O coeficiente de correlagao de Pearson (p) pode ser calculado como a razao entre a covariancia de duas varia¬ 
veis e o produto dos desvios-padrao (S) de cada uma delas, conforme segue: 


X(X~XH Y-Y) 

1=1 _ 

cov(X,Y) _ n -1 _ 

S X -Sy S x -Sy 


(3.10) 
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Como S x = 


sa a ser: 


X(x,.-x) 2 


I(y,-y) 2 


n — 1 


e Sy = V— 


H—l 


-, conforme estudamos no Capitulo 2, a expressao (3.10) pas- 


^(X-X)iY-Y) 


P=- 


i =1 


fe(X-X ) 2 ■ ]?(¥<-Y ) 2 


1=1 


1=1 


(3.11) 


No Capitulo 10, faremos uso com frequencia do coeficiente de correla^ao de Pearson quando do estudo da 
analise fatorial. 


■ EXEMPL0 9 

Abra novamente o arquivo Renda_Estudo.xls e calcule o coeficiente de correlafao de Pearson entre as duas 
variaveis. 

■ SOLU^AO 

O calculo do coeficiente de correla^ao de Pearson, por meio da expressao (3.10), e: 

cov(X,Y) = 761,336 =Q 7?? 

P S X -S Y 970,774-1,009 ’ 

O calculo tambem poderia ser efetuado pela expressao (3.11) que independe do tamanho da amostra. O re- 
sultado indica uma correla^ao positiva forte entre as variaveis Renda Familiar e Anos de Estudo . 

O Excel tambem calcula o coeficiente de correla^ao de Pearson por meio da fun^ao PEARSON. 


Resolu^ao dos Exemplos 8 e 9 (calculo da covariancia e do coeficiente de correla^ao de Pearson) 
pelo SPSS 

Vamos abrir novamente o arquivo Renda_Estudo.sav. Para o calculo da covariancia e do coeficiente de 
correla^ao de Pearson pelo SPSS, vamos clicar em Analyze —> Correlate —» Bivariate.... Sera aberta a janela 
Bivariate Correlations. Selecionaremos as variaveis Renda Familiar e Anos de Estudo , alem do coeficiente de 
correla^io de Pearson, como mostra a Figura 3.36. No botao Options..., devemos selecionar a op^ao Cross- 
product deviations and covariances, de acordo com a Figura 3.37. Clicaremos em Continue e, na sequencia, 
em OK. Os resultados das estatisticas sao apresentados na Figura 3.38. 


i 

| Bivariate Correlations 


Pit 

— WaB' 



Variables: — 




^ Renda Familiar |Re„. 

if all 

1 II 

£| . 


■ 




f Correlation Coefficients-= 


_____. 



M Pearson HiKendalfs tan-d 0 Spearman 


1 

f Test of Significance-^-^ 




€ 

® Two-tailed © One-tailed 



s [H Flag significant correlations 


Biiiijiii 


Figura 3.36 Caixa de dialogo Bivariate Correlations. 
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" @ Bivariate Correlations; Options 

r Statistics--- . 

H M eai1s standard delations 

0 iCross-prodydt delations and covariance^ 


“Missing Values—- 

® Exclude cases pairwise 
© Exdude cases llstwise 



Figura 3.37 Selecionando a estatistica da covariancia. 


Correlations 



Renda 

Familiar 

Anos de 
Estudo 

Renda Familiar Pearson Correlation 

1 

,777” 

Sig. (2-tailed) 


,000 

Sum of Squares and 

89528286,40 

72326,925 

Cross-products 



Covariance 

942403,015 

761,336 

N 

96 

96 

Anos de Estudo Pearson Correlation 

,777** 

1 

Sig. (2-tailed) 

,000 


Sum of Squares and 

72326,925 

96,700 

Cross-products 



Covariance 

761,336 

1,018 

N 

96 

96 


**. Correlation is significant at the 0.01 level (2-tailed). 

Figura 3.38 Resultados da covariancia e do coeficiente de correla^ao de Pearson pelo SPSS. 


De maneira semelhante ao realizado para o coeficiente de Spearman, o coeficiente de correla^ao de Pearson 
tambem pode ser gerado pelo SPSS a partir do menu Analyze —> Descriptive Statistics —» Crosstabs... (op- 
£ao Correlations no botao Statistics...). 

Resolu^ao dos Exemplos 8 e 9 (calculo da covariancia e do coeficiente de correla^ao de Pearson) 
pelo Stata 

Para o calculo do coeficiente de correla^ao de Pearson no Stata, devemos utilizar o comando correlate, ou 
simplesmente corr, seguido pela lista de variaveis de interesse. O resultado e a matriz de correla^ao entre as res- 
pectivas variaveis. 

Vamos abrir novamente o arquivo Renda_Estudo.dta. Assim, para os dados desse arquivo, podemos digitar 
o seguinte comando: 

corr rendafamiliar anosdeestudo 

O resultado esta ilustrado na Figura 3.39. 
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. corr rendafamiliar anosdeestudo 
(obs=96) 

| rendaf~r anosde^o 

- + - 

rendafamil~r | 1.0000 

anosdeestudo | 0.7773 1.0000 


Figura 3.39 Resultado do coeficiente de correla^ao de Pearson no Stata. 

Para o calculo da covariancia, devemos utilizar a op^ao covariance, ou apenas cov, ao final do comando 
correlate (ou simplesmente corr). Assim, para gerar a Figura 3.40, devemos digitar o seguinte comando: 

corr rendafamiliar anosdeestudo, cov 


. corr rendafamiliar anosdeestudo, cov 
(obs=96) 

| rendaf~r anosde~o 

--f- 

rendafamil~r | 942403 

anosdeestudo | 761.336 1.01789 

Figura 3.40 Resultado da covariancia no Stata. 

3.4. CONSIDERA0ES FINAIS 

Este capitulo apresentou os principals conceitos da estatistica descritiva com enfoque para o estudo da relagao 
entre duas variaveis (analise bivariada). Estudamos as relates entre duas variaveis qualitativas (associates) e entre 
duas variaveis quantitativas (correlates). Para cada situa^ao, foram apresentadas diversas medidas, tabelas e grafi- 
cos que permitem melhor compreensao do comportamento dos dados. A Figura 3.1 resume essas informates. 

A geragao e a interpreta^ao de distributes de frequencias, de representagoes graficas, alem de medidas-resu- 
mo (medidas de posi^ao ou localiza^ao e medidas de dispersao ou variabilidade), podem propiciar ao pesquisador 
melhor compreensao e visualiza^ao do comportamento dos dados para duas variaveis simultaneamente.Tecnicas 
mais avan^adas podem ser aplicadas futuramente sobre o mesmo conjunto de dados, para que pesquisadores apro- 
fundem seus estudos em analise bivariada, com o intuito de aprimorar a qualidade da tomada de decisao. 

3.5. EXERCICIOS 

1) Quais estatisticas descritivas podem ser utilizadas (e em quais situates) para representar o comportamento de 
duas variaveis qualitativas simultaneamente? 

2) E para representar o comportamento de duas variaveis quantitativas? 

3 ) Em que situates devem ser utilizadas tabelas de contingencia? 

4 ) Quais as diferen^as entre a estatistica qui-quadrado (% 2 ), o coeficiente Phi, o coeficiente de contingencia, o 
coeficiente V de Cramer e o coeficiente de Spearman? 

5 ) Quais as principals medidas-resumo para representar o comportamento dos dados entre duas variaveis quan¬ 
titativas. Descreva cada uma delas? 

6) Com o objetivo de identificar o comportamento do consumidor inadimplente em rela^ao aos seus habitos de 
pagamento, foi realizada uma pesquisa com informates sobre a faixa etaria do respondente e o grau de inadim- 
plencia. O objetivo e determinar se existe associa^ao entre as variaveis. Com base nos arquivos Inadimplencia. 
sav e Inadimplencia.dta, pede-se: 

a) Construa as tabelas de distribui^ao conjunta de frequencias para as variaveis faixa_etaria e inadimplencia (fre¬ 
quencias absolutas, frequencias relativas em rela^ao ao total geral, frequencias relativas em rela^ao ao total 
de cada linha, frequencias relativas em rela^ao ao total de cada coluna e frequencias esperadas). 

b) Determine a porcentagem de individuos na faixa etaria entre 31 e 40 anos. 






122 


Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata* 


c) Determine a porcentagem de individuos muito endividados. 

d) Determine a porcentagem daqueles que sao da faixa etaria de ate 20 anos e que nao tern dividas. 

e) Determine, dentre os individuos da faixa etaria acima de 60 anos, a porcentagem daqueles que sao pouco 
endividados. 

f) Determine, dentre os individuos mais ou menos endividados, a porcentagem daqueles que pertencem a 
faixa etaria entre 41 e 50 anos. 

g) Verifique se ha indicios de dependencia entre as variaveis. 

h) Confirme o item anterior usando a estatistica % 2 .. 

i) Calcule os coeficientes Phi , de contingencia e V de Cramer, confirmando se ha ou nao associa^ao entre as 
variaveis. 

7) Os arquivos Motiva 9 ao_Empresas.sav e Motiva£aoJEmpresas.dta apresentam um banco de dados com 
as variaveis Empresa e Grau de Motivagao (. Motivagao ), obtidas por meio de uma pesquisa realizada com 250 funcio- 
narios (50 respondentes para cada uma das 5 empresas pesquisadas), com o intuito de avaliar o grau de motiva^ao 
dos funcionarios em rela^ao a empresas, consideradas de grande porte. Desta forma, pede-se: 

a) Construa as tabelas de contingencia de frequences absolutas, frequences relativas em rela^ao ao total ge- 
ral, frequencias relativas em rela^ao ao total de cada linha, frequencias relativas em rela^ao ao total de cada 
coluna e frequencias esperadas. 

b) Calcule a porcentagem de respondentes muito desmotivados. 

c) Calcule a porcentagem de respondentes da empresa A e que estao muito desmotivados. 

d) Calcule a porcentagem de respondentes motivados na empresa D. 

e) Calcule a porcentagem de respondentes pouco motivados na empresa C. 

f) Determine, dentre os respondentes que estao muito motivados, a porcentagem daqueles que pertencem a 
empresa B. 

g) Verifique se ha indicios de dependencia entre as variaveis. 

h) Confirme o item anterior usando a estatistica % 2 . 

i) Calcule os coeficientes Phi , de contingencia e V de Cramer, confirmando se ha ou nao associa^ao entre as 
variaveis. 

8) Os arquivos Avalia£ao_Alunos.sav e Avalia£ao_Alunos.dta apresentam as notas de 0 a 10 de 100 alu- 
nos de uma universidade publica em rela^ao as seguintes disciplinas: Pesquisa Operacional, Estatistica, Gestao de 
Operates e Finan^as.Verifique se ha correla^ao entre os seguintes pares de variaveis, elaborando o diagrama de 
dispersao e calculando o coeficiente de correla^ao de Pearson: 

a) Pesquisa Operacional e Estatistica. 

b) Gestao de Operates e Finan^as. 

c) Pesquisa Operacional e Gestao de Operates. 

9) Os arquivos Supermercados_Brasileiros.sav e Supermercados_Brasileiros.dta apresentam dados de 
faturamento e numero de lojas dos 20 maiores supermercadistas brasileiros em determinado ano (fonterABRAS 
— Associafao Brasileira de Supermercados). Pede-se: 

a) Elabore o diagrama de dispersao para as variaveis faturamento X numero de lojas. 

b) Calcule o coeficiente de correla^ao de Pearson entre as duas variaveis. 

c) Exclua os quatro maiores grupos supermercadistas em faturamento, assim como o grupo AM/PM 
Comestiveis Ltda., e elabore novamente o diagrama de dispersao. 

d) Calcule novamente o coeficiente de correla^ao de Pearson entre as duas variaveis estudadas. 
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Introdu^ao a Probabilidade 


Voce quer ficor o resto da sua vida vendendo agua com agucar 
ou voce quer uma chance de mudar o mundo? 

Steve Jobs 


Ao final deste capitulo, voce sera capaz de: 

• Diferenciar a estatistica probabilistica da estatistica descritiva e em quais situagoes deve ser utilizada. 

• Descrever como surgiu a probabilidade e sua evolugao. 

• Compreender os conceitos e terminologias relativos a teoria das probabilidades. 

• Prever a ocorrencia de um ou mais eventos utilizando a teoria das probabilidades. 

• Entender como a analise combinatoria pode ser utilizada para o calculo de probabilidades. 


4.1. INTRODUgAO 

Na parte anterior estudamos a estatistica descritiva, que retrata e sintetiza as caracteristicas principais obser- 
vadas em um conjunto de dados por meio de tabelas de distribuigao de frequences, graficos e medidas-resumo, 
permitindo ao pesquisador melhor compreensao dos dados. 

Ja a estatistica probabilistica utiliza a teoria das probabilidades para explicar a frequencia de ocorrencia de de- 
terminados eventos incertos , de forma a estimar ou prever a ocorrencia de eventos futuros. Por exemplo, no lan¬ 
gamento de um dado, nao sabemos ao certo qual elemento sera sorteado, de modo que a probabilidade pode ser 
utilizada para indicar a possibilidade da ocorrencia de determinado evento. 

Segundo Bruni (2011), a historia da probabilidade se iniciou, provavelmente, com o homem primitivo, a fim 
de compreender melhor os fenomenos incertos da natureza. Ja no seculo XVII, surgiu a teoria das probabilidades 
para explicar os eventos incertos. O estudo da probabilidade evoluiu para planejar jogadas ou tragar estrategias 
voltadas a jogos de azar. Atualmente, e aplicada tambem para o estudo da inferencia estatistica, a fim de genera- 
lizar o universo dos dados. 

Este capitulo tern como objetivo apresentar os conceitos e terminologias relacionados a teoria das probabi¬ 
lidades, assim como sua aplicagao. 


4.2. TERMINOLOGIA E CONCEITOS 

4.2.1. Experimento aleatorio 

Um experimento consiste em qualquer processo de observagao ou medida. Um experimento aleatorio e 
aquele que gera resultados imprevisiveis, de modo que, se o processo for repetido inumeras vezes, torna-se impos- 
sivel prever seu resultado. O langamento de uma moeda ou de um dado sao exemplos de experimentos aleatorios. 

4.2.2. Espago amostral 

O espago amostral S consiste em todos os possiveis resultados de um experimento. 

Por exemplo, no langamento de uma moeda, podemos obter cara ( k) ou coroa (c). Logo, S = {k, c). Ja no lan¬ 
gamento de um dado, o espago amostral e representado por S — {1, 2, 3, 4, 5, 6}. 
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4.23. Eventos 

O evento e qualquer subconjunto de um espa^o amostral. 

Por exemplo, o evento A contem apenas as ocorrencias pares do lan^amento de um dado. Logo, A = {2,4,6}. 

4.2.4. Unides, intersec<;6es e complementos 

Dois ou mais eventos podem formar unioes, intersec^oes e complementos. 

A uniao de dois eventos A e B, representada por 4u6, resulta em um novo evento contendo todos os ele- 
mentos de A, B ou ambos, e pode ser ilustrada de acordo com a Figura 4.1. 



A intersec^ao de dois eventos A e B, representada por 4n6, resulta em um novo evento contendo todos 
os elementos que estejam, simultaneamente, em A e B, e pode ser ilustrada de acordo com a Figura 4.2. 



Figura 4.2 Intersec^ao de dois eventos (A n B). 


O complemento de um evento A, representado por A c , e o evento que contem todos os pontos de S que 
nao estejam em A, como mostra a Figura 4.3. 



Figura 4.3 Complemento do evento A. 


4.2.5. Eventos independentes 

Dois eventos A e B sao independentes quando a probabilidade de ocorrencia de B nao for condicional a 
probabilidade de ocorrencia de A. O conceito de probabilidade condicional sera estudado na se^ao 4.5. 
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4.2.6. Eventos mutuamente excludentes 

Eventos mutuamente excludentes ou exclusivos sao aqueles que nao tem elementos em comum, de forma 
que eles nao podem ocorrer simultaneamente.A Figura 4.4 ilustra dois eventos A e B mutuamente excludentes. 



Figure 4.4 Eventos A e B mutuamente excludentes. 


4.3. DEFINigAODE PROBABILIDADE 

A probabilidade de ocorrencia de determinado evento A no espa^o amostral S e dada pela razao entre o nu- 
mero de casos favoraveis ao evento ( n^ e o numero total de possiveis casos ( n ): 


^ n A numero de casos favoraveis ao evento A 

P(A) = - jL = - : -—- 

n numero total de possiveis casos 


(4.1) 


■ EXEMPLO 1 

No lan^amento de um dado, qual a probabilidade da ocorrencia de um numero par? 

■ SOLU^AO 

O espa^o amostral e dado por S = {1, 2, 3, 4, 5, 6}. O evento de interesse e A = {numero par de um dado}, 
de modo que A = {2, 4, 6}.A probabilidade de ocorrencia de A e, portanto: 


■ EXEMPLO 2 

Uma urna contem 3 bolas brancas, 2 bolas vermelhas, 4 bolas amarelas e 2 bolas pretas. Qual a probabilidade 
de que uma bola vermelha seja sorteada? 

■ SOLU^AO 

Dado um total de 11 bolas e considerando A — {a bola e vermelha}, a probabilidade e: 

_ numero de bolas vermelhas _ 2 
numero total de bolas 11 

4.4. REGRAS BASICAS DA PROBABILIDADE 

4.4.1. Campo de varia^ao da probabilidade 

A probabilidade de um evento A ocorrer e um numero entre 0 e 1: 

0 < P(A) < 1 (4.2) 


4.4.2. Probabilidade do espa^o amostral 

O espa^o amostral 5 tem probabilidade igual a 1: 

P(S) = 1 


(4.3) 
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4.4.3. Probabilidade de um conjunto vazio 

A probabilidade de um conjunto vazio (<p) ocorrer e nula: 

P(4>) = 0 (4.4) 


4.4.4. Regra de acU^ao de probabilidades 

A probabilidade de ocorrencia do evento A, do evento B ou de ambos pode ser calculada como: 

P(AvB)=P(A)+P(B)-P(AnB) ( 45 ) 

Se os eventos A e B forem mutuamente excludentes, isto e, A Pi B = 0, a probabilidade de ocorrencia de 
um deles e igual a soma das probabilidades individuais: 

P(AuB) = P(A)+P(B) (46) 

A expressao (4.6) pode ser estendida para n eventos (A 1; A 2 ,..., A„) mutuamente excludentes: 

P(A 1 uA 2 u-uA n )=P(A 1 )+P(A 2 )+-+P(A n ) (47) 


4.4.5. Probabilidade de um evento complementar 

Se A c for o evento complementar de A, entao: 

P(A‘) = 1 - P(A) (4.8) 

4.4.6. Regra da multiplica^ao de probabilidades para eventos independentes 

Se A e B forem dois eventos independentes, a probabilidade de ocorrencia conjunta deles e igual ao produto 
de suas probabilidades individuais: 

P(AnB) = P(A)-P(B) (49) 

A expressao (4.9) pode ser estendida para n eventos {A u A 2 ,..., A„) independentes: 

P(A 1 nA 2 n...nA n )=P(A 1 )-P(A 2 )-...-P(A ll ) (4101 


■ EXEMPLO 3 

Uma urna contem bolas numeradas de 1 a 60 que tem a mesma probabilidade de serem sorteadas. Pede-se: 

a) Defina o espa^o amostral. 

b) Calcule a probabilidade de que a bola sorteada seja impar. 

c) Calcule a probabilidade de que a bola sorteada seja um numero multiplo de 5. 

d) Calcule a probabilidade de que a bola sorteada seja impar ou um numero multiplo de 5. 

e) Calcule a probabilidade de que seja sorteado um numero multiplo de 7 ou multiplo de 10. 

f) Calcule a probabilidade de que nao seja sorteado um numero multiplo de 5. 

g) Uma bola e sorteada ao acaso e reposta a urna. Uma nova bola passa a ser sorteada. Calcule a probabilidade 

da primeira ser par e da segunda ser maior que 40. 

■ SOLU^AO: 

a) S = {1, 2, 3,..., 60} 

30 1 

b) A = {% 3, 5,..., 59}, P(^4) = —= — 

60 z 

c) A={5, 10,15,..., 60}, P(A)=—=— 

60 5 

d) Seja A = {1,3, 5,..., 59} e B = {5,10,15,..., 60}. Como A e B nao sao eventos mutuamente excludentes, 
ja que tem elementos em comum (5,15,25,35, 45, 55), aplicamos a expressao (4.5): 
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P(AuB)=P(A)+P(B)-P(AnB)=U~-^-=j 

Z D OK) D 

e) Nesse caso, A = {7,14, 21,28, 35, 42,49, 56} e B = {10,20,30,40, 50, 60}. Como os eventos sao mutu- 
amente excludentes (A r\ B = 0), aplicamos a expressao (4.6): 

P(AkjB)=P(A)+P(B)——+—=— 

60 60 30 

f) Nesse caso, A - {numeros multiplos de 5} e A c = {numeros que nao sao multiplos de 5}.A probabilidade 
do evento complementar A c e, portanto: 

P(A c )=1-P(A)=1~A 


g) Como os eventos sao independentes, aplica-se a expressao (4.9): 

1 20 1 

P(AnB)=P(A)-P(B)=-X—=- 

2 60 6 


4.5. PROBABILIDADE CONDICIONAL 

Quando os eventos nao forem independentes, devemos utilizar o conceito de probabilidade conditional. 
Considerando dois eventos A e B, a probabilidade de ocorrencia de A, dado que B ocorreu, e chamada probabi¬ 
lidade condicional deA dado Bee representada por P(A \ B) : 


P(A\B) = 


P(A n B) 
P(B) 


Um evento A e dito independente de B se: 

P(A | B) - P(A) 


(4.11) 

(4.12) 


■ EXEMPLO 4 

Um dado e lan<;ado. Qual a probabilidade de obter o numero 4, sendo que o numero sorteado foi par? 

■ SOLU^AO 

Neste caso, A = {numero 4} e B — {numero par}.Aplicando a expressao (4.11), temos que: 


P(A\B) = 


PjAnB) _ 1/6 _ 1 
P(B) ~ 1/2 _ 3 


4.5.1. Regra da multiplica^ao de probabilidades 

A partir da defim^ao de probabilidade condicional, a regra da multiplicafao permite que calculemos a pro¬ 
babilidade da ocorrencia simultanea de dois eventos A e B como a probabilidade de um deles multiplicada pela 
probabilidade condicional do outro, dado que o primeiro evento ocorreu: 


P(A nB)=P(A)- P(B I A)=P(B) ■ P(A | B) 

A regra da multiplica^ao pode ser estendida para tres eventos A, B e C: 

P(AnBnC)=P(A)-P(B\A)-P(C\AnB) 


(4.13) 

(4.14) 


Esta e apenas uma das seis maneiras em que a expressao (4.14) pode ser escrita. 
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M EXEMPLO 5 

Uma urna contem 8 bolas brancas, 6 bolas vermelhas e 4 bolas pretas. Sorteia-se, inicialmente, uma bola que 
nao e reposta na urna. Uma nova bola passa a ser sorteada. Qual a probabilidade de ambas as bolas serem ver¬ 
melhas? 

m soLugAo 


Diferentemente do exemplo anterior, que calculava a probabilidade condicional de um unico evento, o obje- 
tivo nesse caso e calcular a probabilidade de ocorrencia simultanea de dois eventos. Os eventos tambem nao sao 
independentes, ja que nao ha reposi^ao da primeira bola na urna. 

Seja o evento A = {a primeira bola e vermelha}e B = {a segunda bola e vermelha}, para o calculo de P (A 
n B), devemos aplicar a expressao (4.13): 

P(AnB)=P(A)-P(B\A)=——=— 

18 17 51 


■ EXEMPLO 6 

Uma empresa sorteara um carro para um de seus clientes que estao localizados em diferentes regioes do Brasil. 
ATabela 4.1 apresenta os dados referentes aos clientes, por sexo e cidade. Determine: 

a probabilidade de ser sorteado um cliente do sexo masculino? 
a probabilidade de ser sorteado um cliente do sexo feminino? 
a probabilidade de ser sorteado um cliente de Curitiba? 

a probabilidade de ser sorteado um cliente de Sao Paulo, dado que e do sexo masculino? 

a probabilidade de ser sorteado um cliente do sexo feminino, dado que e de Aracaju? 

a probabilidade de ser sorteado um cliente de Salvador e do sexo feminino? 


Tabela 4.1 Distribui<;ao de frequences absolutas segundo sexo e cidade. 



Masculino 

Feminino 

Total 

Goiania 

12 

14 

26 

Aracaju 

8 

12 

20 

Salvador 

16 

15 

31 

Curitiba 

24 

22 

46 

Sao Paulo 

35 

25 

60 

Belo Horizonte 

10 

12 

22 


105 

100 

205 


a) Qual 

b) Qual 

c) Qual 

d) Qual 

e) Qual 

f) Qual 


■ SOLU^AO 


a) A probabilidade do cliente ser do sexo masculino e 105/205 = 21/41. 

b) A probabilidade do cliente ser do sexo feminino e 100/205 = 20/41. 

c) A probabilidade do cliente ser de Curitiba e 46/205. 

d) Considerando que A — {Sao Paulo} e B = {sexo masculino}, a P{A \ B) e calculada de acordo com a ex¬ 
pressao (4.11): 


P(A\B)= 


PjAnB) 

P(B) 


35/205 

105/205 


1 

3 


e) Considerando que A = {sexo feminino} e B — {Aracaju}, a P(A \ B) e: 


P(A\B) = 


P(AC\B) 

P(B) 


12/205 _ 3 
20/205 ~ 5 
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f) Seja A = {Salvador} e B — {sexo feminino}, a P(A P B) e calculada de acordo com a expressao (4.13): 


P(AnB) = P(A)-P(B\A)= 


31 ^5 
205 31 


41 


4 . 6 . OTEOREMADE BAYES 

Imagine que a probabilidade de determinado evento foi calculada. Porem, novas informagoes foram adicio- 
nadas ao processo, de modo que a probabilidade deve ser recalculada. A probabilidade calculada inicialmente e 
chamada probabilidade a priori ; a probabilidade com as novas informa^oes adicionadas e chamada probabilidade a 
posteriori. O calculo da probabilidade a posteriori e baseado no teorema de Bayes e esta descrito a seguir. 

Considere B l5 B 2 ,..., B n eventos mutuamente excludentes, tal que P(B 1 ) + P(jB 2 ) + • •• +P(B„) = 1-Ja A e um 
evento qualquer que ocorrera em conjunto ou como consequencia de um dos eventos B { (i — 1,2,.A pro¬ 
babilidade de ocorrencia de um evento B { , dada a ocorrencia do evento A , e calculada como: 

P(B 1 1)= p (fi n ^) = _ MIA-) _ 

P(4l) P(B 1 )-P(^|B 1 ) + P(B 2 )-P(^|B 2 )+...+P(B„)-P(^|BJ / 41 a 


em que: 

P(B,) e a probabilidade a priori; 

P(B i \A) e a probabilidade a posteriori (probabilidade de B { depois da ocorrencia de A). 

m EXEMPL0 7 

Considere tres urnas identicas U l5 U 2 e U 3 . A urna U t contem duas bolas, uma amarela e outra vermelha. Ja 
a urna U 2 contem tres bolas azuis, enquanto a urna U 3 contem duas bolas vermelhas e uma amarela. Escolhe-se 
ao acaso uma das urnas e retira-se uma bola.Verifica-se que a bola escolhida e amarela. Qual a probabilidade de 
que a urna Uj tenha sido escolhida? 

■ SOLU^AO 

Definiremos os seguintes eventos: 

B r = escolha da urna U*; 

B 2 — escolha da urna U 2 ; 

B 3 = escolha da urna U 3 ; 

A = escolha da bola amarela. 

O objetivo e calcularmos P(B 1 \ A), sabendo que: 

P(B t ) = 1/3, P(A | B t ) = 1/2; 

P(B 2 ) = 1/3,P(^|B 2 ) = 0; 

P(B 3 ) = 1/3, P(A | B 3 ) = 1/3. 

Logo, temos que: 

P(B 1 1} P(B,nA) _ Wm) _ 

11 P(A) P{B x yP{A\B x )+P{B 2 )-P(A\B 2 )+P(B,)-P(A\B,) 


P(B 1 \A) = 


11 

32 


11 1 11 

- 1 —Oh- 

3 2 3 3 3 


3 

5 
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4.7. ANALISE COMBINATORIA 

A analise combinatoria e um conjunto de procedimentos que calcula a quantidade de diferentes grupos que 
podem ser formados selecionando-se um numero finito de elementos de um conjunto. Arranjos, combina^oes 
e permuta^oes sao os tres tipos principals de agrupamentos e sao aplicaveis a probabilidade. A probabilidade de 
um evento e, entao, a razao entre o numero de resultados do evento de interesse e o numero total de resultados 
no espa^o amostral (quantidade total de arranjos, combina^oes ou permuta^oes). 


4.7.1. Arranjos 

Um arranjo calcula a quantidade posslvel de agrupamentos com elementos distintos de determinado conjun¬ 
to. Bruni (2011) define arranjo como o estudo da quantidade de maneiras em que se pode organizar uma amostra 
de objetos, extraida de um universo maior e em que a altera^ao da ordem dos objetos organizados seja relevante. 

Dado n diferentes objetos, se o objetivo for escolher p desses objetos (ft e p sao inteiros, n> p),o numero de 
arranjos ou maneiras possiveis de se fazer isso e representado por A np e calculado como: 


A 


n,p 


n\ 

(;n — p)\ 


(4.16) 


■ EXEMPLO 8 

Considere um conjunto com tres termos A = {1, 2, 3}. Se esses termos fossem tornados 2 a 2, quantos arran¬ 
jos seriam possiveis? Qual a probabilidade de que o elemento 3 esteja na segunda posi^ao? 


■ solu?Ao 

A partir da expressao (4.16), temos que: 

3! _ 3x2x1 

n,p ~ (3 — 2)! ~~ 1 


Esses arranjos sao: (1,2), (1,3), (2,1), (2,3), (3,1) e (3,2). No arranjo, a ordem como os elementos estao dispostos 
e relevante. Por exemplo, (1,2) ^ (2,1). 

Definidos todos os arranjos, fica facil calcularmos a probabilidade. Como temos 2 arranjos em que o elemento 
3 esta na segunda posi^ao, dado um total de 6 arranjos, a probabilidade 6 2/6 = 1/3. 


■ EXEMPLO 9 


Calcule o numero de maneiras possiveis de se colocar 6 automoveis em 3 vagas. Qual a probabilidade de que 
o atomovel 1 esteja na primeira vaga? 

■ SOLU^AO 

Pela expressao (4.16), temos que: 


, 6! 6x5x4x3! ^ 

A 6> 3 — — ' —120 


(6-3)! 


3! 


Dos 120 possiveis arranjos, em 20 deles o automovel 1 esta na primeira posi^ao: (1,2,3), (1,2,4), (1,2,5), (1,2,6), 
(1,3,2), (1,3,4), (1,3,5), (1,3,6), (1,4,2), (1,4,3), (1,4,5), (1,4,6), (1,5,2), (1,5,3), (1,5,4), (1,5,6), (1,6,2), (1,6,3), 
(1,6,4), (1,6,5). Logo, a probabilidade e 20/120 = 1/6. 


4.7.2. Combina^des 

A combina^ao e um caso particular do arranjo em que nao importa a ordem com que os elementos sao 
organizados. 

Dados n diferentes objetos, o numero de maneiras ou combina^oes de organizar p desses objetos e represen¬ 
tado por C np (n elementos combinadosp ap) e calculado como: 

ft! 

p\(n-p)\ 



(4.17) 
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EXEMPLO 10 

Em uma turma com 20 alunos, de quantas maneiras podem ser formados grupos de 4 alunos? 

SOLUgAO 

Como a ordem dos elementos do grupo nao e relevante, devemos aplicar a expressao (4.17): 


^ 20,4 1 


^ 20 ^ 
V4 j 


20 ! 


20x19x18x17x16! 


4!(20—4)! 24-(16)! 

Assim, 4.845 diferentes grupos podem ser formados. 


=4.845 


■ EXEMPLO 11 

Marcelo, Felipe, Luiz Paulo, Rodrigo e Ricardo foram brincar em um parque de diversao. O proximo brin- 
quedo escolhido e de apenas 3 lugares, de forma que 3 deles serao escolhidos aleatoriamente. Qual a probabili¬ 
dade de que Felipe e Luiz Paulo estejam no brinquedo? 


■ solu^Ao 


O numero total de combina^oes e: 


^ 5,3 “ 




\ 2 J 


5! 5x4x3! 

3!2! ” 3! 2 


As 10 possibilidades sao: 


Grupo 1: Marcelo, Felipe e Luiz Paulo 
Grupo 2: Marcelo, Felipe e Rodrigo 
Grupo 3: Marcelo, Felipe e Ricardo 
Grupo 4: Marcelo, Luiz Paulo e Rodrigo 
Grupo 5: Marcelo, Luiz Paulo e Ricardo 
Grupo 6: Marcelo, Rodrigo e Ricardo 
Grupo 7: Felipe, Luiz Paulo e Rodrigo 
Grupo 8: Felipe, Luiz Paulo e Ricardo 
Grupo 9: Felipe, Rodrigo e Ricardo 
Grupo 10: Luiz Paulo, Rodrigo e Ricardo 


A probabilidade e, portanto, 3/10. 

4.73. Permuta0es 

A permuta^ao e um arranjo em que todos os elementos do conjunto sao selecionados. E, portanto, o numero 
de maneiras com que n elementos podem ser agrupados, trocando-se a ordem deles. O numero de permuta^oes 
possiveis e representado por P n e pode ser calculado como: 

P« = n\ (4.18) 


■ EXEMPLO 12S 

Considere um conjunto com tres elementos, A — (1,2,3}. Qual e o numero total de pennutacoes possiveis? 

■ SOLUgAO 

P 3 = 3! = 3 X 2 x 1 = 6. Sao elas: (1,2,3), (1,3,2), (2,1,3), (2,3,1), (3,1,2) e (3,2,1). 

■ EXEMPLO 13 

Uma industria fabrica 6 produtos distintos. A sequencia de proclucao pode ocorrer de quantas maneiras? 
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■ solu<;Ao 

Para determinar o numero de sequencias possiveis de producfto, basta aplicarmos a expressao (4.18): 

P 6 = 6! = 6 x 5 x 4 x 3 x 2 x 1 - 720 


4.8. CONSIDERAgOES FINAIS 

Este capitulo apresentou os conceitos e terminologias relacionados a teoria das probabilidades, assim como 
sua aplica^ao pratica. A teoria das probabilidades e utilizada para avaliar a possibilidade de ocorrencia de eventos 
incertos, tendo sua origem na compreensao de fenomenos naturais incertos, evoluindo para o planejamento de 
jogos de azar e, atualmente, sendo aplicada para o estudo da inferencia estatistica. 

4.9. EXERCICIOS 

1) Dois times de futebol jogarao a prorroga^ao de um jogo com morte subita. Defina o espa^o amostral. 

2) Qual a diferen^a entre eventos mutuamente excludentes e eventos independentes? 

3) Em um baralho com 52 cartas, determine: 

a) A probabilidade de que uma carta de copas seja sorteada. 

b) A probabilidade de que uma dama seja sorteada. 

c) A probabilidade de que uma carta com figura (valete, dama ou rei) seja sorteada. 

d) A probabilidade de que uma carta sem figura seja sorteada. 

4) Um lote de produ^ao contem 240 pe^as, das quais 12 delas sao defeituosas. Uma pe$a e sorteada ao acaso. 
Qual a probabilidade de que ela nao seja defeituosa. 

5) Um numero e escolhido aleatoriamente entre 1 e 30. Pede-se: 

a) Defina o espa^o amostral. 

b) Determine a probabilidade de que esse numero seja divisivel por 3. 

c) Determine a probabilidade de que esse numero seja multiplo de 5. 

d) Determine a probabilidade de que esse numero seja divisivel por 3 ou multiplo de 5. 

e) Determine a probabilidade de que esse numero seja par, dado que e multiplo de 5. 

f) Determine a probabilidade de que esse numero seja multiplo de 5, dado que e divisivel por 3. 

g) Determine a probabilidade de que esse numero nao seja divisivel por 3. 

h) Suponha que sejam escolhidos dois numeros, cada um deles de forma aleatoria, determine a probabilidade 
de que o primeiro numero seja multiplo de 5 e o segundo seja impar. 

6 ) Dois dados sao lan^ados simultaneamente. Determine: 

a) O espa<po amostral. 

b) A probabilidade de que ambos os numeros sejam pares. 

c) A probabilidade de que a soma dos pontos seja 10. 

d) A probabilidade de que o produto dos pontos seja 6 . 

e) A probabilidade de que a soma dos pontos seja 10 ou 6 . 

f) A probabilidade de que o numero sorteado no primeiro dado seja impar ou que o numero sorteado no 
segundo dado seja multiplo de 3. 

g) A probabilidade de que o numero sorteado no primeiro dado seja par e que o numero sorteado no segun¬ 
do dado seja multiplo de 4. 

7) Qual a diferen^a entre arranjos, combina^oes e permuta^oes? 



CAPITULO 


Variaveis Aleatorias e Distributes 
de Probabilidade 


Aquilo a que chomomos ocoso nao e, e nao pode deixar de ser, senao a causa ignorada de um efeito conhecido. 

Voltaire 


Ao final deste capitulo, voce sera capaz de: 

• Compreender os conceitos relativos as variaveis aleatorias discretas e continuas. 

• Calcular a esperanga, a variancia e a fungao de distribuigao acumulada de variaveis aleatorias discretas e 
continuas. 

• Descrever os principals tipos de distribuigao de probabilidades para variaveis aleatorias discretas: uniforme 
discreta, Bernoulli, binomial, geometrica, binomial negativa, hipergeometrica e Poisson. 

• Descrever os principals tipos de distribuigao de probabilidades para variaveis aleatorias continuas: 
uniforme, normal, exponencial, Gama, qui-quadrado (x 2 ), t de Student e F de Snedecor. 

• Determinar a distribuigao mais adequada para determinado conjunto de dados. 


5.1. INTRODUgAO 

Nos Capitulos 2 e 3 estudamos diversas estatisticas para descrever o comportamento de dados quantitativos 
e qualitativos, incluindo distribuigoes de frequences amostrais. Neste capitulo, estudaremos as distribuigoes de 
probabilidade das populagoes (para variaveis quantitativas). A distribuigao de frequencia de uma amostra e uma 
estimativa da distribuigao de probabilidade da populagao correspondente. Quando o tamanho da amostra for 
considerada grande, a distribuigao de frequencia de determinada variavel dessa amostra pode seguir, aproximada- 
mente, a distribuigao de probabilidade da mesma variavel para a populagao (Martins e Domingues, 2011). 

Segundo os autores, para a elaboragao de pesquisas empiricas, bem como para solugao de diversos problemas 
praticos, o estudo da estatistica descritiva e de importancia fundamental. Porem, quando o objetivo e estudar va¬ 
riaveis de uma populagao, a distribuigao de probabilidade passa a ser mais adequada. 

Este capitulo apresenta o conceito de variaveis aleatorias discretas e continuas, as principais distribuigoes de 
probabilidades para cada um dos tipos de variavel aleatoria, assim como o calculo da esperanga e da variancia de 
cada distribuigao de probabilidade. 

Para variaveis aleatorias discretas, as distribuigoes de probabilidades mais utilizadas sao a uniforme discreta, 
Bernoulli, binomial, geometrica, binomial negativa, hipergeometrica e de Poisson. Ja para variaveis aleatorias 
continuas estudaremos a distribuigao uniforme, normal, exponencial, Gama, qui-quadrado (x 2 ), t de Student e F 
de Snedecor. 

5.2. VARIAVEIS ALEATORIAS 

Conforme estudamos no capitulo anterior, o conjunto de todos os resultados possiveis de um experimento 
aleatorio e denominado espago amostral. Para descrever esse experimento, e conveniente associar valores nume- 
ricos aos elementos do espago amostral. A variavel aleatoria pode ser caracterizada como variavel que apresenta 
um valor unico para cada elemento, sendo esse valor determinado aleatoriamente. 

Consideremos £ um experimento aleatorio e S o espago amostral associado ao experimento. A fungao X que 
associa a cada elemento s e S um numero real X (. s ) e denominada variavel aleatoria. As variaveis aleatorias 
podem ser discretas ou continuas. 
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5.2.1. Variavel aleatoria disc ret a 

Uma variavel aleatoria discreta e aquela que assume valores em um conjunto enumeravel, nao podendo 
assumir, portanto, valores decimals ou nao inteiros. Como exemplos de variaveis aleatorias discretas, podemos 
mencionar a quantidade de filhos, de funcionarios em uma empresa ou de automoveis produzidos em determi- 
nada fabrica. 

5.2. 1.1. Esperanqa de uma variavel aleatoria discreta 

Seja X uma variavel aleatoria discreta que pode assumir os valores {x u x 2 , ..., x n } com as respectivas proba- 
bilidades {p(x 1 ),p(x 2 ), ...,p(x n ). A fun^ao {x h p(x^), i = 1,2,..., n} e chamada fun^ao de probabilidade da variavel 
aleatoria X e associa, a cada valor de X t , a sua probabilidade de ocorrencia: 

p(x t ) = P(X = x t ) = p h i = 1,2,» (5.1) 

** n 

de modo que p(x t ) > 0 para todo x { e ^p(x-) = l . 

«=l 

A esperanqa (valor esperado ou medio) de X e dada pela expressao: 

n n 

E(X)=^x r P(X=x i )=^x i - Pi ( 5 . 2 ) 

1=1 1=1 

A expressao (5.2) e semelhante aquela utilizada para a media no Capitulo 2, em que, no lugar das probabili- 
dades p h tinham-se as frequences relativas Fr { . A diferen^a entre p { e Fr t e que a primeira corresponde a valores 
de um modelo teorico pressuposto e a segunda a valores observados da variavel. Como p { e Fr { tern a mesma in- 
terpreta^ao, todas as medidas e graficos apresentados no Capitulo 2, baseados na distribui^ao de Fr { , possuem um 
correspondente na distribuigao de uma variavel aleatoria. A mesma interpreta^ao e valida para outras medidas de 
posi^ao e variabilidade, como a mediana e o desvio-padrao (Bussab e Morettin, 2011). 

5.2.7.2. Varidncia de uma variavel aleatoria discreta 

A variancia de uma variavel aleatoria discreta X e a media ponderada das distancias entre os valores que X 
pode assumir e a esperanqa de X, em que os pesos sao as probabilidades dos possiveis valores de X. Se X assumir 
os valores {x u x 2 ,..., x n }, com as respectivas probabilidades {p\,P 2 , entao sua variancia e dada por: 

I /ar(X)=a 2 (X) = E[(X-E(X)f]=^[x i -E(X)f - Pi (5.3) 

i=l 

Em alguns casos, e conveniente utilizar o desvio-padrao de uma variavel aleatoria como medida de variabili¬ 
dade. O desvio-padrao deXea raiz quadrada da variancia: 

G(X) = ^Var(X) (5.4) 


■ EXEMPLO 1 

Suponha que a venda mensal de imoveis por determinado corretor segue a distribui^ao de probabilidade da 
Tabela 5.1. Determine o valor esperado de venda mensal, assim como sua variancia. 


Tabela 5.1 Venda mensal de Imoveis e respectivas probabilidades. 


x { (vendas) 

0 

1 

2 

3 

p(x t ) 

2/10 

4/10 

3/10 

1/10 


■ SOLUgAO 

O valor esperado de venda mensal e: 

E(X) = 0 x 0,20 + 1 x 0,40 + 2 x 0,30 + 3 x 0,10 = 1,3 
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A variancia pode ser calculada como: 

1 MX) = (0 - 1,3) 2 * 0,2 + (1 - 1,3) 2 • 0,4 + (2 - 1,3) 2 • 0,3 + (3 - 1,3) 2 • 0,1 = 0,81 

5.2.7.3. Funqao de distribuiqao acumulada de uma variavel aleatoria discreta 

A fun^ao de distribui^ao acumulada (f.d.a.) de uma variavel aleatoria X, denotada por F(x), corresponde a 
soma das probabilidades dos valores de x { menores ou iguais a x: 


F(x)=P(X<x)=^p(x.) 


X:<X 


(5.5) 


As seguintes prppriedades sao validas para a fun^ao de distribui^ao acumulada de 
creta: 

uma variavel aleatoria dis— 

0 < F(x) < 1 

(5.6) 

lim F(x) = 1 

X—^oo 

(5.7) 

lim F(x) = 0 

(5.8) 

a<b^F(a)< F(b) 

(5.9) 


EXEMPLO 2 

Para os dados do Exemplo 1, calcule F( 0,5), F( 1), F(2,5), F(3), F(4) e F(—0,5). 

solu^Ao 

2 

a) F(0,5)=P(X < 0,5)=— 

10 

2 4 6 

b) F(1) = P(X<1)=- 1 -=— 

10 10 10 

2 4 3 9 

c) F(2,5) = P(X<2,5) =- 1 - 1 -= — 

10 10 10 10 

2 4 3 1 

d) F(3) = P(X<3)=- 1 - 1 - 1 -=1 

10 10 10 10 

e) F(4)=P(X<4)=1 

f) F(-0,5) = P(X < -0,5) = 0 

Em resumo, a fun^ao de distribui^ao acumulada da variavel aleatoria X do Exemplo 1 e dada por: 


F(x) = 


0 

se x < 0 , 

2/10 

se 0 < x < 1 , 

6/10 

se 1 < x < 2 , 

9/10 

se 2<x<3, 

1 

se x>3 


5.2.2. Variavel aleatoria contmua 

Uma variavel aleatoria continua e aquela que pode assumir diversos valores num intervalo de numeros 
reais. Como exemplos de variaveis aleatorias continuas, podemos citar a renda familiar, o faturamento da empresa 
ou a altura de determinada crianca. 
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Uma variavel aleatoria contmua X esta associada a uma fun^ao /(x), denominada fun^ao densidade de proba- 
bilidade (f.d.p.) de X, que satisfaz a seguinte condi^ao: 


-t-OO 

jf(x)dx = 1, f(x)> 


0 


(5.10) 


Para quaisquer a e b, tal que — oo<a<b< + °a probabilidade de que a variavel aleatoria X assuma valores 
nesse intervalo e: 


P(a<X<b)=jf(x)dx 

a 

que pode ser representada graficamente, como mostra a Figura 5.1. 


(5.11) 



Figura 5.1 Probabilidade de X assumir valores no intervalo [a, b]. 


5.2.2.1. Esperanto de uma variavel aleatoria continua 

A esperan^a matematica (valor esperado ou medio) de uma variavel aleatoria continua X com fun^ao densi¬ 
dade de probabilidade f(x) e dada pela expressao: 


4oo 

E(X)= jx-f(x)dx 


(5.12) 


S.2.2.2. Variancia de uma variavel aleatoria contmua 

A variancia de uma variavel aleatoria continua X com funcao densidade de probabilidade J(x) e calculada como: 

Var(X) = E (X 2 )—[e(X)Y — j(x — E(X)) 2 f(x)dx (5-13) 

■ EXEMPLO 3 

A funcao densidade de probabilidade de uma variavel aleatoria continua X e dada por: 

[2x, 0 <x<l 

/(*)=L . r , 

[0, para quaisquer outros valores 

Calcule E(X) e Var(X). 


■ SOLU^AO 


E(X) = J(x • 2 x)dx =j* (2x 2 ) dx —— 
o o 3 

1 1 

E(X 2 ) = j(x 2 • 2 x)dx =J (2x 3 ) dx =- 
o 0 


VAR(X) = E(X 2 )-[e(X)Y=^ 


-T 

.3, 


18 
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5.2.23. Funqao de distribuiqao acumulada de uma variavel aleatoria continua 

Como no caso de variaveis aleatorias discretas, podemos calcular probabilidades associadas a uma variavel ale¬ 
atoria continua X a partir de uma fun^ao de distribui^ao acumulada. 

A fun^ao de distribui^ao acumulada F(x) de uma variavel aleatoria continua X com fun^ao densidade de pro¬ 
babilidade f(x) e definida por: 

F(x) = P(X<x), —°o<x<°o (5.14) 

A expressao (5.14) e semelhante a apresentada para o caso discreto, na expressao (5.5). A diferen^a e que, para 
variaveis contmuas, a fun^ao de distribui^ao acumulada e uma fun^ao continua, sem saltos. 

De maneira analoga a expressao (5.11), podemos escrever que: 


F(x) = J f(x)dx 


(5.15) 


Da mesma forma que para as variaveis aleatorias discretas, valem as seguintes propriedades para a fun^ao de 
distribuifao acumulada de uma variavel aleatoria continua: 

0 < F (*)<1 


lim F(x) = 1 

x—>°° 

lim F(x) = 0 
a<b->F(a)<F(b) 

EXEMPL0 4 

Consideremos novamente a fun^ao densidade de probabilidade do Exemplo 3: 

{2x, 0 <x<l 
f(x) = \ 

[0, para quaisquer outros valores 
Calcule a fun^ao de distribui^ao acumulada de X. 

solu^Ao 


(5.16) 

(5.17) 

(5.18) 

(5.19) 


X X 

F(x) = P(X < x) = jf(x)dx = J 2 xdx =• 


0 sex<0 
x 2 se0 <x<l 
1 sex>l 


5.3. DISTRIBUTES DE PROBABILIDADES PARA VARIAVEIS ALEATORIAS DISCRETAS 

Para variaveis aleatorias discretas, as distributes de probabilidades mais utilizadas sao a uniforme discreta, 
Bernoulli, binomial, geometrica, binomial negativa, hipergeometrica e Poisson. 

5.3.1. Distribui<;ao uniforme discreta 

E a mais simples das distributes discretas de probabilidade e recebe o nome uniforme porque todos os pos- 
siveis valores da variavel aleatoria tern a mesma probabilidade de ocorrencia. 

Uma variavel aleatoria discreta X que assume os valores x u x 2 ,... x n tern distribui^ao uniforme discreta com 
parametro n, denotada por X~ U d {x t , x 2 ,... x n }, se sua fun^ao de probabilidade e dada por: 


P(X = x i )=p(x i )=-, i = l,2,...,n 


podendo ser representada graficamente como mostra a Figura 5.2. 


(5.20) 
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A esperan^a matematica de X e dada por: 


£(X)=-•£*, 

n tt 


A variancia de X e calculada a partir de: 


Var(X )=— 
n 


E a fun^ao de distribui^ao acumulada (f.d.a.) e: 


X; 


f « V 

s, 

V i=1 J 


i=l 


F(X) = P(X<x)=^-= 


1 n(x) 


X{<X 


n n 


em que n(x) e o numero de x t < x , como mostra a Figura 5.3. 



Figura 5.3 Fungao de distribui^ao acumulada. 


(5.21) 


(5.22) 


(5.23) 


■ EXEMPLO 5 

Um dado nao viciado e lan$ado, de modo que a variavel aleatoria X representa o valor da face voltada para 
cima. Determine a distribuifao de X, alem da esperanga e variancia de X. 
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■ SOLU^AO 

A distribui^ao de X esta representada naTabela 5.2. 


Tabela 5.2 Distribui$ao de X. 


X 

1 

2 

3 

4 

5 

6 

Soma 

/(*) 

1/6 

1/6 

1/6 

1/6 

1/6 

1/6 

1 


Temos que: 

E(X)=—(l+2 + 3+4+5+6)=3,5 

6 


Var(X)=-- 


(l + 2 2 +--- + 6 2 )-^- 


=—=2,917 

12 


5.3.2. Distribui^ao de Bernoulli 

O experimento de Bernoulli e um experimento aleatorio que fornece apenas dois resultados possiveis, 
convencionalmente denominados de sucesso ou fracasso. Como exemplo de um experimento de Bernoulli, po- 
demos citar o langamento de uma moeda, cujos resultados possiveis sao cara e coroa. 

Para determinado experimento de Bernoulli, vamos considerar a variavel aleatoria X que assume o valor 1 
no caso de sucesso e 0 no caso de fracasso. A probabilidade de sucesso e representada por pea probabilidade 
de fracasso por (1 — p) ou q. A distribui^ao de Bernoulli fornece, portanto, a probabilidade de sucesso ou fra¬ 
casso da variavel X na realiza^ao de um unico experimento. Podemos dizer, portanto, que a variavel X se¬ 
gue uma distribui^ao de Bernoulli com parametro p , denotada por X ~Bern(p), se sua fun^ao de probabilidade 
for dada por: 


P(X = *) = p(*) = 



p , sex = 0 
, sex = l 


que tambem pode ser representada da seguinte forma: 


P(X = x) = p(x) — p x ' (1 — p) 1 ~ x , x — 0,1 


A fun^ao de probabilidade da variavel aleatoria X esta representada na Figura 5.4. 


(5.24) 


(5.25) 


r 

A 

p(x) i 


1 - 

- 

p - 

• 

1-p < 

i k. 

C 

I — W 

) 1 X 

V 

J 


Figura 5.4 Fun^ao de probabilidade da distribui$ao de Bernoulli. 
E facil verificarmos que o valor esperado deXe: 


E(X)=p 


( 5 . 26 ) 
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com variancia de X sendo: 

Var(X) = p • (1 -p) 

A fun^ao de distribuigao acumulada (f.d.a.) de Bernoulli e dada por: 


F(x) = P(X<x) = 


0 , sex<0 
1 —p, sex<0<l 


i. 


sex>l 


que pode ser representada pela Figura 5.5. 


(5.27) 


(5.28) 


F(x) 

1 - 

P - 

1-p < 


- 

, . i w 

C 

) 1 x 

V 

J 

Figura 5.5 

F.d.a. da dlstribui^ao de Bernoulli. 


E importante mencionar que usaremos os conhecimentos sobre a distribui^ao de Bernoulli quando estudar- 
mos os modelos de regressao logistica binaria (Capitulo 13). 


M EXEMPL0 6 

A final da Copa Interclubes de Futsal ocorrera entre as equipes A e B. A variavel aleatoria X representa o time 
vencedor da Copa. Sabe-se que a probabilidade da equipe A ser vencedora e 0,60. Determine a distribui^ao de 
X, alem da esperan^a e variancia de X. 


solu^Ao 

A variavel aleatoria X pode assumir apenas dois valores: 


X- 


|"l , se a equipe A for vencedora 
|o, se a equipe B for vencedora 


Como trata-se de um unico jogo, a variavel X segue uma distribui^ao de Bernoulli com parametro p = 0,60, 
denotada por X~Bern(0,6), de modo que: 


P(X=x)=p(x) = 


I q= 0,4 , se x = 0 (equipe B) 
[p=0,6, sex = l (equipe A) 


Temos que: 


E(X) =p = 0,6 

Var(X) = p( 1 -p) = 0,6 x 0,4 = 0,24 


5.3.3. Distribui^ao binomial 

Um experimento binomial consiste em n repeti^oes independentes de um experimento de Bernoulli com 
probabilidade p de sucesso, probabilidade essa que permanece constante em todas as repeti^oes. 
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A variavel aleatoria discreta X de um modelo binomial corresponde ao numero de sucessos ( k ) nas n repeti- 
qoes do experimento. Entao, X tem distribui^ao binomial com parametros n e p, denotada por X~ b(n,p), se sua 
fun^ao de distribui^ao de probabilidade for dada por: 


em que 



ft! 

k\(n-k)\ 


m= P (x=k)= 



•(1 -p) n ~ k , k=0, 


(5.29) 


A media de X e dada por: 


E(X) = ft * p 


(5.30) 


Ja a variancia de X pode ser expressa por: 


Var(X) = ft * p • (1 -p) (5.31) 

Podemos notar que a media e a variancia da distribui^ao binomial sao iguais a media e variancia da distribui- 
^ao de Bernoulli, multiplicadas por ft, que representa o numero de repeti^oes de um experimento de Bernoulli. 

A Figura 5.6 apresenta a fun^ao de probabilidade da distribui^ao binomial para ft = 10 e valores de p iguais 
a 0,3,0,5 e 0,7. 



Figura 5.6 Fun^ao de probabilidade da distribui<;ao binomial para n = 10. 


A partir da Figura 5.6, podemos verificar que, parap = 0,5, a fun^ao de probabilidade e simetrica em torno 
da media. Se p < 0,5, a distribui^ao e assimetrica positiva, observando maior frequencia para valores menores de 
k e uma cauda mais longa a direita. Se p > 0,5, a distribui^ao e assimetrica negativa, observando maior frequencia 
para valores maiores de k e uma cauda mais longa a esquerda. 

Vale salientar que faremos uso dos conhecimentos sobre a distribui^ao binomial quando estudarmos os mo- 
delos de regressao logistica multinomial (Capitulo 13). 

Rela^ao entre a distribui^ao binomial e a de Bernoulli 

Uma distribuigao binomial com parametro n— 1 e equivalente a uma distribui^ao de Bernoulli: 

X~b(l,p)=X~Bern(p) 


■ EXEMPLO 7 

Determinada pe^a e produzida em uma linha de produ^ao. A probabilidade de que a pe$a nao tenha defeitos 
e de 99%. Se forem produzidas 30 pe^as, qual a probabilidade de que pelo menos 28 delas esteja em boas condi- 
£oes? Determine tambem a media e a variancia da variavel aleatoria. 
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■ soLugfo 

Temos que: 

X = variavel aleatoria que representa o numero de sucessos (pe^as em boas condi^oes) nas 30 repeti^oes; 
p = 0,99 = probabilidade de que a pe^a esteja em boas condi^oes; 
q = 0,01 = probabilidade de que a pe^a seja defeituosa; 
n = 30 repeti^oes; 
k = numero de sucessos. 

A probabilidade de que pelo menos 28 pe^as nao sejam defeituosas e dada por: 

p(x > 28)= p(x = 28 )+ p(x = 29)+ p(x = 30) 


P(X = 29\- 


P(X = 30) = 


30! 

r 99 V 

28!2! 

v iooJ 

30! 

f 99 > 

29! 1! 

lioo> 

30! 

^ 99 V 

30!0! 

uooj 


-T= 
100 ) 


0,0328 


100 


= 0,224 


V 100y 


= 0,7397 


P{X > 28)=0,0328 + 0,224 + 0,7397=0,997 


A media de X e expressa por: 

E(X) = n • p = 30 x 0,99 = 29,7 

E a variancia de X e: 

Var(X) = n • p • (1 - p) = 30 x 0,99 x 0,01 = 0,297 

53.4. Distribute) geometrica 

A distribui^ao geometrica, assim como a binomial, considera sucessivos ensaios de Bernoulli indepen- 
dentes, todos com probabilidade de sucesso p. Porem, em vez de utilizar um numero fixo de tentativas, elas se- 
rao realizadas ate que o primeiro sucesso seja obtido.A distribui^ao geometrica apresenta duas parametriza^oes 
distintas. 

A primeira parametriza^ao considera sucessivos ensaios de Bernoulli independentes, com probabilidade de 
sucesso p em cada ensaio, ate que ocorra um sucesso. Nesse caso, nao podemos incluir o zero como um possivel 
resultado, de modo que o dominio e suportado pelo conjunto {1, 2, 3,...}. Por exemplo, podemos considerar a 
quantidade de lan^amentos de uma moeda ate a primeira cara, a quantidade de pe^as produzidas ate a proxima 
defeituosa, etc. 

A segunda parametriza^ao conta o numero de falhas ou fracassos antes do primeiro sucesso. Como aqui e pos¬ 
sivel obter sucesso ja no primeiro ensaio de Bernoulli, incluimos o zero como resultado possivel, de modo que 
o dominio e suportado pelo conjunto {0,1, 2, 3,...}. 

Seja X a variavel aleatoria que representa o numero de tentativas ate o primeiro sucesso. A variavel X tern dis- 
tribui^ao geometrica com parametro p, denotada por X~ Geo (p), se sua fun^ao de probabilidade for dada por: 

f(x) = P(X=x)=p - (l-p)*-\ *=1,2,3,... (5.32) 

Para o segundo caso, consideremos Y a variavel aleatoria que representa o numero de falhas ou fracassos antes 
do primeiro sucesso. A variavel Y tern distribui^ao geometrica com parametro p , denotada por Y ~ Geo(p), se sua 
fun^ao de probabilidade for dada por: 

fly) = P(Y=y)=p-( 1 -p)y, y = 0,1, 2,... 


(5.33) 
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Em ambos os casos, a sequencia de probabilidades e uma progressao geometrica. 

A fun^ao de probabilidade da variavel X esta representada graficamente na Figura 5.7, parap = 0,4. 



Figura 5.7. Fun^ao de probabilidade da variavel X com parametro p = 0,4. 


O calculo do valor esperado e da variancia deXe: 

E(X) = - 

P (5.34) 

Var(X)=^—f 

V (5.35) 

De forma equivalente, para a variavel Y, temos que: 


1 

rH 

II 

£ 

(5.36) 

p 

Var{Y)=l—f 


P 

(5.37) 


A distribuigao geometrica e a unica distribui^ao discreta que tern a propriedade da falta de memoria (no caso 
das distributes continuas, veremos que a distribui^ao exponencial tambem apresenta essa propriedade). Isso sig- 
nifica que, se um experimento for repetido antes do primeiro sucesso, entao, dado que o primeiro sucesso ainda 
nao ocorreu, a fun^ao de distribui^ao condicional do numero de tentativas adicionais nao depende do numero 
de fracassos ocorridos ate entao. 

Assim, para quaisquer dois inteiros positivos set, se X for maior do que 5, entao a probabilidade de que X seja 
maior do que s + t e igual a probabilidade incondicional de X ser maior do que t : 

P(X>s + t\X>s) = P{X>t) (5.38) 


■ EXEMPLO 8 

Uma empresa fabrica determinado componente eletronico, de modo que, ao final do processo, cada com- 
ponente e testado, um a um. Suponha que a probabilidade de um componente eletronico estar defeituoso seja 
de 0,05. Determine a probabilidade de que o primeiro defeito seja encontrado no oitavo componente testado. 
Calcule tambem o valor esperado e a variancia da variavel aleatoria. 


■ SOLUgAO 

Temos que: 

X = variavel aleatoria que representa o numero de componentes eletronicos testados ate o primeiro defeito; 
p = 0,05 = probabilidade de que o componente seja defeituoso; 
q = 0,95 = probabilidade de que o componente esteja em boas condi^oes. 
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A probabilidade de que o primeiro defeito seja encontrado no oitavo componente testado e dada por: 

P(X = 8) = 0,05 • (1 - 0,0s) 8 - 1 - 0,035 


A media de X e expressa por: 


E a variancia de X e: 


E(X )=-=20 
P 


Var(X)=K?- 

P 


0,95 

0,0025 


=380 


53.5. Distribui<jao binomial negativa 

A distribui^ao binomial negativa, tambem conhecida como distribui^ao de Pascal, realiza sucessivos 
ensaios de Bernoulli independentes (com probabilidade de sucesso constante em todas as tentativas) ate atingir 
um numero prefixado de sucessos (fe), ou seja, o experimento continua ate que sejam observados k sucessos. 

Seja X a variavel aleatoria que representa o numero de tentativas realizadas (ensaios de Bernoulli) ate conse- 
guir o fe-esimo sucesso. A variavel X tern distribui^ao binomial negativa, denotada por X~ bn(fe,p), se sua fun^ao 
de probabilidade for dada por: 


f(x) = P(X=x) = 


( 

k-1 


p k -(\-p) x k , x = fe,fe + l,... 


(5.39) 


A representagao grafica de uma distribui^ao binomial negativa com parametro k — 2 e p — 0,4 esta na Figura 5.8. 



Figura 5.8 Fun^ao de probabilidade da variavel X com parametro k = 2ep = 0,4. 


O valor esperado deXe: 


com variancia: 



Var(X) = 


Hi-p) 

2 


(5.40) 


(5.41) 
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Rela^ao entre a distribuigao binomial negativa e a binomial 

A distribui^ao binomial negativa esta relacionada com a distribui^ao binomial. Na binomial, devemos fixar o 
tamanho da amostra (numero de ensaios de Bernoulli) e observar o numero de sucessos (variavel aleatoria). Na 
binomial negativa, devemos fixar o numero de sucessos ( k ) e observar o numero de ensaios de Bernoulli neces- 
sarios para obter k sucessos. 

Rela^ao entre a distribuigao binomial negativa e a geometrica 

A distribui^ao binomial negativa com parametro k = 1 e equivalente a geometrica: 

X ~ bn(l ,p) = X ~ Geo(p) 

Ou ainda, uma serie binomial negativa pode ser considerada a soma de series geometricas. 

E importante mencionar que faremos uso dos conhecimentos sobre a distribui^ao binomial negativa quando 
estudarmos os modelos de regressao para dados de contagem (Capitulo 14). 

■ EXEMPLO 9 

Suponha que um aluno acerte tres questoes a cada cinco testes. Seja X o numero de tentativas ate o decimo 
segundo acerto. Determine a probabilidade de que o aluno precise fazer 20 questoes para acertar 12. 

■ SOLU^AO 

Temos que: 

k = 12 p = 3/5 = 0,6 q = 2/5 - 0,4 
X — numero de tentativas ate o decimo segundo acerto, isto e, bn(12; 0,6). Logo: 


/ (20)=P(X=20) = 


20 -1 
v 12 - 1 , 


•0,6 12 -O^ 20 ' 12 =0,1078=10,78% 


5.3.6. Distribui^ao hipergeometrica 

A distribui 9 ao hipergeometrica tambem esta relacionada com um experimento de Bernoulli. Porem, diferen- 
temente da amostragem binomial, em que a probabilidade de sucesso e constante, na distribui^ao hipergeome¬ 
trica, como a amostragem e sem reposi^ao, a medida que os elementos sao retirados da popula^ao para formar a 
amostra, o tamanho da popula^ao diminui, fazendo com que a probabilidade de sucesso varie. 

A distribui^ao hipergeometrica descreve o numero de sucessos na amostra de n elementos, extraida de uma 
popula^ao finita sem reposi^ao. Por exemplo, consideremos uma popula^ao com N elementos, dos quais M pos- 
suem determinado atributo. A distribui^ao hipergeometrica descreve a probabilidade de que, em uma amostra 
com n elementos distintos extraidos aleatoriamente da popula^ao sem reposi^ao, exatamente k possuem tal atri¬ 
buto (k sucessos e n — k fracassos). 

Seja X uma variavel aleatoria que representa o numero de sucessos obtidos a partir dos n elementos retirados 
da amostra. A variavel X segue distribui^ao hipergeometrica com parametros N, M, n, denotada por X~ Hip(N, 
M, n), se sua fun^ao de probabilidade for dada por: 


f(k)=P(X=k)=- 


(m' 

r N-M' 

UJ 

K n-k J 




0 < k < min(M,n) 


(5.42) 


A representa^ao grafica de uma distribui^ao hipergeometrica com parametros N = 200, M = 50 e n = 30 esta 
na Figura 5.9. 
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Figura 5.9 Fungao de probabilidade da variavel X com parametros N = 200, M = 50 e n = 30. 


A media de X pode ser calculada como: 


E(X) = 


n-M 

N 


com variancia: 


Var(X) = 


«-M ( [N-M)-(N-n) 
N N-(N- 1) 


(5.43) 

(5.44) 


Aproxima^ao da distribui^ao hipergeometrica pela binomial 

Seja X uma variavel aleatoria que segue distribui^ao hipergeometrica com parametros JV, M e n, denotada 
por X~ Hip(N, M, n). Se a popula^ao for grande quando comparada ao tamanho da amostra, a distribui^ao hi¬ 
pergeometrica pode ser aproximada por uma distribui^ao binomial com parametros n e p = M/N (probabilidade 
de sucesso em um unico ensaio): 

X ~ Hip(N, M, n) * X ~ b(n,p), com p = M/N 


■ EXEMPLO 10 

Uma urna contem 15 bolas, das quais 5 delas sao vermelhas. Sao escolhidas 7 bolas ao acaso, sem reposi^ao. 
Determine: 

a) A probabilidade de que exatamente duas bolas vermelhas sejam sorteadas. 

b) A probabilidade de que pelo menos duas bolas vermelhas sejam sorteadas. 

c) O numero esperado de bolas vermelhas sorteadas. 

d) A variancia do numero de bolas vermelhas sorteadas. 


■ SOLU^AO 

Seja X a variavel aleatoria que representa o numero de bolas vermelhas sorteadas.Temos que N = 15, M = 5 
e n = 7 


a) P(X = 2) = 



r N-M) 



f 10 l 

K k j 

K n — k J 


a 



< n' s 


^ 15 ^ 



< 7 , 


= 39,16% 


b) P(X>2)=l-P(X<2) = l-[P(X=0)+P(X = l)]=.l- 


( 5 ) 

A" 


f 5 l 

'io > 

A 

\l) 


a' 



^15^ 



Ay 


Ay 


= 81,82% 
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n-M 7*5 

c) E(X)= -=— = 2,33 

N 15 


t 7 n-M (N-M)-(N-n) 7x5 10x8 „ „„„„ 

d) Var(X)=- T7 ~- — _ - —-=^^x _ ^ _ =0,8889=88,89% 


N N-(N-l) 


15x14 


5.3.7. Distribui^ao Poisson 

A distribu^ao Poisson e utilizada para registrar a ocorrencia de eventos raros, com probabilidade de sucesso 
muito pequena (p —> 0), em determinada exposi^ao (por exemplo, em determinado intervalo de tempo ou espa£o). 

Diferentemente do modelo binomial, que fornece a probabilidade do numero de sucessos em um intervalo 
discreto (n repeti^oes de um experimento), o modelo Poisson fornece a probabilidade do numero de sucessos 
em determinado intervalo continuo (tempo, area, entre outras possibilidades de exposi^ao). Como exemplos de 
variaveis que representam a distribui^ao Poisson, podemos mencionar a quantidade de clientes que chegam a 
fila por unidade de tempo, a quantidade de defeitos por fabrica, a quantidade de acidentes por municipio, etc. 
Podemos notar que as unidades de medida de exposi^ao (tempo, unidade fabril e municipio, nessas situates) sao 
continuas, mas a variavel aleatoria (numero de ocorrencias) e discreta. 

A distribui^ao Poisson apresenta as seguintes hipoteses: 

(i) Eventos definidos em intervalos nao sobrepostos sao independentes; 

(ii) Em intervalos de mesmo comprimento, as probabilidades de ocorrencia de um mesmo numero de su¬ 
cessos sao iguais; 

(iii) Em intervalos muito pequenos, a probabilidade de ocorrencia de mais de um sucesso e desprezivel; 

(iv) Em intervalos muito pequenos, a probabilidade de um sucesso e proporcional ao comprimento do in¬ 
tervalo. 

Consideremos uma variavel aleatoria discreta X que representa a quantidade de sucessos ( k ) em determina¬ 
da unidade de tempo, de area, entre outras possibilidades. A variavel aleatoria X, com parametro A > 0, apresenta 
distribui^ao Poisson, denotada por X ~ Poisson(A), se sua fungao de probabilidade e dada por: 

-A ^k 

f(k)=P(X=k)=——, fe=0,l,2,... (5.45) 

k\ 


em que: 

e : base do logaritmo neperiano (ou natural), sendo e = 2,718282; 

A: taxa media estimada de ocorrencia do evento de interesse para dada exposi^ao (intervalo de tempo, area, etc.). 
A Figura 5.10 apresenta a fun^ao de probabilidade da distribui^ao Poisson para A = 1, 3 e 6. 



Figura 5.10 Fun^ao de probabilidade de Poisson. 
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Na distribui^ao Poisson, a media e igual a variancia, conforme deduziremos no Capitulo 14: 

E(X) = Var(X) = X (5.46) 

Vale salientar que usaremos os conhecimentos sobre a distribui^ao Poisson quando estudarmos os modelos de 
regressao para dados de contagem (Capitulo 14). 

Aproxima^ao da distribui^ao binomial pela de Poisson 

Seja X uma variavel aleatoria que segue uma distribuigao binomial com parametros n e p, denotada por X 
~ b (n,p). Quando o numero de repeti^oes de um experimento aleatorio for muito grande (n —> <») e a proba- 
bilidade de sucesso for muito pequena (p —> 0), de tal forma que n * p = X = constamte , a distribui^ao binomial 
aproxima-se da de Poisson: 

X ~ b (n, p) ~ X ~Poisson(A), com X = n.p 


■ EXEMPLO 11 

Suponha que o numero de clientes que chegam a um banco siga uma distribui^ao Poisson.Verifica-se que, em 
media, chegam 12 clientes por minuto. Calcule: a) probabilidade de chegada de 10 clientes no proximo minuto; 
b) probabilidade de chegada de 40 clientes nos proximos 5 minutos; c) media e variancia de X. 

■ SOLU^AO 

Temos que X — 12 clientes por minuto. 

-12 ^ 2 10 

a) P(X= 10)=-— : -=0,1048 

10 ! 

e~ 12 -12 8 

b) P(X= 8)=-=0,0655 

8 ! 

c) E(X) = Var(X) = A = 12 

■ EXEMPLO 12 

Determinada pe$a e produzida em uma linha de produ^ao. A probabilidade de que essa pega seja defeituosa e 
de 0,01. Se forem produzidas 300 pe^as, qual a probabilidade de que nenhuma delas seja defeituosa? 

■ SOLU^AO 

Este exemplo caracteriza-se por uma distribui^ao binomial. Como o numero de repeti^oes e grande e a pro¬ 
babilidade de sucesso e pequena, a distribuigao binomial pode ser aproximada por uma distribui^ao Poisson com 
parametro X—n-p~ 300 x 0,01 = 3, de modo que: 

-3 o 0 

P(X= 0)=——=0,05 
0! 

O Quadro 5.1 apresenta o resumo das distributes discretas estudadas nesta se^ao, incluindo o calculo da 
fun^ao de probabilidade da variavel aleatoria, os parametros da distribui^ao e o calculo do valor esperado e da 
variancia de X. 
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Quadro 5.1 Distributes para variaveis discretas. 


Distribuisao 

Fun9ao de Probabilidade - P(X) 

Parametros 

E(X) 

Var(X) 

Uniforme discreta 

i 

n 

n 

i-y*, 

n t! 

i 

n 

( » V" 

tx 2 Vi=1 ; 

tr ’ » 


Bernoulli 

p* • (i -py-*,x = o, i 

P 

P 

p ■ (1 -p) 

Binomial 


w 

p k -(\-p) n k , k=0 n 

n, p 

n.p 

n ■ p ■ (1 -p) 

Geometrica 

P(X) = p • (1- *)*-»,*= 1,2,3,... 

P(Y)=p ■ (l-p)y, Y = 0,1, 2,... 

V 

E(X) = - 

p 

E(y)=— 

P 

Var(X)=^—f 

P 

Var{Y)=~—~ 

P 

Binomial negativa 

( 

x — 1 

k-\ 

\ 

-p k ' (1 — p) x ~ k ,x = k,k+l,... 

) 

k,p 

k 

p 

k-(l-p) 

2 

P 

Hiper-geometrica 


' M' 

r N-M\ 

, n — k j 

A—-A0<fe<mm (M,n) 

(?) 

N,M,n 

n-M 

N 

n-M (N-M)-(N-n) 
N N-(N-l) 

Poisson 

-, * = 0,1,2,... 

k\ 

A 

A 

A 


5.4. DISTRIBUTES DE PROBABILIDADES PARA VARIAVEIS ALEATORIAS CONTl'NUAS 

Para as variaveis aleatorias continuas, estudaremos a distribui^ao uniforme, normal, exponencial, Gama, qui- 
-quadrado Qf 2 ), t de Student e F de Snedecor. 


5.4.1. Distribui<;ao uniforme 

A distribui^ao uniforme e a mais simples para variaveis aleatorias continuas, sendo utilizada para modelar 
a ocorrencia de eventos cuja probabilidade e constante em intervalos de mesma amplitude. 

Uma variavel aleatoria X tern distribuifao uniforme no intervalo [a, b], denotada por X~ U[a, b \, se sua fun- 
£ao densidade de probabilidade for dada por: 


fl /(b-a), s t a<x<b 
f(x) = < 

[0 , caso contrario 

que pode ser representada graficamente, como mostra a Figura 5.11. 


(5.47) 



Figura 5.11 Distribui$ao uniforme no intervalo [a, b]. 
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A esperanga de X e calculada pela expressao: 


jr 1 

£(X)=jx- 


, a + b 

ax— - 

b — a 2 


E a variancia deXe: 


Var(X)=E(X 2 )-[E(X)f = 

12 


Ja a fun^ao de distribui<pao acumulada da distribuifao uniforme e dada por: 

* X A 

F(x)=P(X<x)=j f( x )Jx=j— dx = 


0 } sex<a 

x — a 


. s ea<x<b 

b-a 

1 , se x>b 


(5.48) 


(5.49) 


(5.50) 


■ EXEMPLO 13 

A variavel aleatoria X representa o tempo de utiliza^ao dos caixas eletronicos de um banco (em minutos) e 
segue uma distribuicio uniforme no intervalo [1,5]. Determine: 

a) P(X < 2) 

b) P(X > 3) 

c) P(3 < X < 4) 

d) E(X) 

e) Var(X) 


1/2 

1) = 1/4 


5.4.2. Distribui^ao normal 

A distribui^ao normal, tambem conhecida como distribui^ao Gaussiana, e a distribuif ao de probabili- 
dade mais utilizada e importante, pois permite modelar uma infinidade de fenomenos naturais, estudos do corn- 
portamento humano, processos industrials, entre outros, alem de possibilitar o uso de aproximagoes para o calculo 
de probabilidades de muitas variaveis aleatorias. 

Uma variavel aleatoria X com media jl e 9? e desvio-padrao <7 > 0 tem distribuifao normal ou Gaussiana, 
denotada por X~ N(/i, CT 2 ), se a sua funcao densidade de probabilidade for dada por: 

1 JezEl 1 

f(x) — -/^=‘ e 2 ° 2 > —1 

0--V271 (5.51) 

cuja representa<pao grafica esta ilustrada na Figura 5.12. 


SOLUCAO 

a) P(X < 2) = F( 2) = (2 - l)/(5 - 1) = 1/4 

b) P(X > 3) = 1 - P(X < 3) = 1 - F(3) = 1 - (3 - l)/(5 - 1) = 

c) P(3 < X < 4) = F(4) - F(3) = (4 - l)/(5 - 1) - (3 - l)/(5 - 

d) F(X)=^^=3 

e ) F4r(X)= (5-1) =- 

12 3 
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A Figura 5.13 mostra a area sob a curva normal em fun^ao do numero de desvios-padrao. 



area = 99,74% 

V J 


Figura 5.13 Area sob a curva normal. 


A partir da Figura 5.13, podemos observar que a curva tem formato de sino e e simetrica em torno do para- 
metro /I, e quanto menor o parametro G, mais concentrada e a curva em torno de jU. 

Na distribui^ao normal, a media de X e, portanto: 

E(X) = ll (5.52) 

E a variancia deXe: 


Var(X) = G 2 


(5.53) 


Para obtermos, a partir da distribui^ao normal, a distribui^ao normal padrao ou distribui^ao normal 
reduzida, a variavel original X e transformada em uma nova variavel aleatoria Z, com media zero (JLL = 0) e va¬ 
riancia 1 (CF 2 = 1): 


Z=— —^~N(0,1) 

a 


(5.54) 


O score Z representa o numero de desvios-padrao que separa uma variavel aleatoria X da media. 

Este tipo de transforma^ao, conhecida por Zscores , e muito utilizada para a padroniza^ao de variaveis, pois 
nao altera a forma da distribui^ao da variavel original e gera uma nova variavel com media zero e variancia 1. 
Desta forma, quando muitas variaveis com diferentes metricas ou ordens de grandeza estiverem sendo utilizadas 
em determinada modelagem, o processo de padroniza^ao Zscores fara com que todas as novas variaveis padroni- 
zadas apresentem media zero e variancia 1, o que propicia, por exemplo, o calculo de medidas de distancia entre 
observances, conforme estudaremos no Capitulo 9. 

A fun^ao densidade de probabilidade da variavel aleatoria Z reduz-se a: 


m= 



•e 


— oo < Z < 


cuja representa^ao grafica esta ilustrada na Figura 5.14. 


2 


(5.55) 
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Figura 5.14 Distribui^ao normal padrao. 


A fun^ao de distribui^ao acumulada F(x c ) de uma variavel aleatoria X com distribui^ao normal e obtida in- 
tegrando-se a expressao (5.51) de -<>o ate x c9 isto e: 


F(x c ) = P(X<x c )=jf(x)dx 


(5.56) 


A integral na expressao (5.56) corresponde a area, sob f(x), de —oo a x C9 como mostra a Figura 5.15. 



Figura 5.15 Representa^ao grafica de P(X <x c ) para uma variavel aleatoria com distribui^ao normal. 

No caso especifico da distribui^ao normal padrao, a fun^ao de distribui^ao acumulada e: 

z c . z c z 2 dz 

F{z c ) = P(Z<z c )= \f(z)dz = -j= \e 2 

V27l -~ (5.57) 


Para uma variavel aleatoria Z com distribuicao normal padrao, suponhamos agora que o objetivo seja calcular 
P(Z > arJ.Temos que: 


P(Z>z c )=jf(z)dz 

Zc 



(5.58) 


A Figura 5.16 representa essa probabilidade. 
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Figura 5.16 Representagao grafica de P(Z > z c ) para uma variavel aleatoria com distribui^ao normal padrao. 

ATabela E do apendice do livro fornece o valor de P(Z > z c ), ou seja, a probabiiidade acumulada de z c a + 
(area em cinza sob a curva normal padrao). 

Aproxima^ao da distribui^ao binomial pela normal 

Seja Xuma variavel aleatoria que apresenta distribui^ao binomial com parametros nep, denotada por X~ b 
( n, p) . A medida que o numero medio de sucessos e o numero medio de fracassos tende ao infinito (n • p —» 
e « • (1 — p) —> °°), a distribui^ao binomial aproxima-se de uma normal com media fl — n • p e variancia CT 2 = 
n ' p • (1 — p): 

X ~ b (n, p) * X ~ N (JLI, <7 2 ), com fl^n'ped 2 — n-p'(\-p) 

Alguns autores admitem que a aproxima^ao da binomial pela normal e adequada quando n • p > 5 e n • (1 — p) 
> 5, ou ainda quando n * p • (1 — p) > 3. Uma regra ainda mais conservadora exige que n- p> 10 etr (1 — p) > 10. 

Porem, como se trata de uma aproxima^ao discreta a partir de uma continua, recomenda-se maior precisao, 
por meio da corre^ao de continuidade, que consiste em transformar, por exemplo, P(X = x) no intervalo P(x - 
0,5 < X < x + 0,5). 

Aproxima^ao da distribui^ao Poisson pela normal 

Analogamente a distribui^ao binomial, a distribui^ao Poisson tambem pode ser aproximada por uma normal. 
Seja X uma variavel aleatoria que apresenta distribui^ao Poisson com parametro X, denotada por X~ Poisson(A). 
A medida que X <», a distribui^ao Poisson aproxima-se de uma normal com media jl — X e variancia CT 2 = X: 

X~Poisson(A)~X~N( J U,<7 2 ), com jl — X e CT 2 —X 

Em geral, admite-se que a aproxima^ao da distribui^ao Poisson pela normal e adequada quando X > 10. 
Novamente, recomenda-se utilizar a corre^ao de continuidade x - 0,5 ex + 0,5. 

■ EXEMPLO 14 

Sabe-se que a espessura media dos abrigos para mangueira produzidos em uma fabrica (X) segue uma distri- 
bui^ao normal com media 3 mm e desvio-padrao 0,4 mm. Determine: 

a) P{X > 4,1) 

b) P(X > 3) 

c) P(X < 3) 

d) P(X < 3,5) 

e) P(X < 2,3) 

f) P(2 < X < 3,8) 

■ SOLU^AO 

As probabilidades serao calculadas com base naTabela E do apendice do livro, que fornece o valor de P(Z > z): 
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a) P(X>4,1) = P Z> 


4,1-3 

0,4 


= P(Z> 2,75) = 0,0030 


3-3 


b ) P(X>3) = P Z>- 

l 0,4 j 

c) P(X<3) = P(Z<0) = 0,5 


= P(Z>0) = 0,5 


d) 


P(X<3,5) = P 


( 35-3^ 

Z <Z£_X. 

V 0,4 


= P(Z < 1,25) = 1 - P(Z > 1,25) 


= 1-0,1056=0,8944 


e) P(X<2,3) = P 


(„ 2,3-3^ 

Z< —- 

0,4 


= P(Z < -1,75) = P(Z > 1,75) = 0,04 


f) P(2<X<3,8) = P 


2 " 3 <z < 3 ’ 8 - 3 


= p(- 2,5 < Z < 2) 


0,4 0,4 

= P(Z < 2) - P(Z < -2,5) = [l - P(Z > 2)]- P(Z > 2,5)= 

= [l - 0,0228]- 0,0062=0,971 

5.4.3. Distribui^ao exponencial 

Outra distribui^ao importante e com aplica^oes em confiabilidade de sistemas e teoria das filas e a exponen¬ 
cial. Tem como principal caracteristica a propriedade de nao possuir memoria, isto e, o tempo de vida futuro ( t ) 
de determinado objeto tem a mesma distribui^ao, independente do seu tempo de vida passada ( 5 ), para quaisquer 
s,t> 0, conforme mostra a expressao (5.38), reproduzida novamente a seguir: 

P(X>5 + f|X>$)=P(X>0 

Uma variavel aleatoria continua X tem distribui^ao exponencial com parametro A > 0, denotada por X ~ 
exp (A), se sua fun^ao densidade de probabilidade for dada por: 


/(*)= 


[X-e Xx ,se x>0 
lo ,se x<0 


(5.59) 


A Figura 5.17 representa a fun^ao densidade de probabilidade da distribui^ao exponencial para parametros 
A = 0,5, A = 1 e A = 2. 



Figura 5.1 7 Distribui^ao exponencial para A = 0,5, A = 1 e A = 2. 
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Podemos notar que a distribui^ao exponencial e assimetrica positiva (a direita), observando maior frequen- 
cia para valores menores de x e uma cauda mais longa a direita. A fun^ao de densidade assume valor A quando 
x = 0, e tende a zero a medida que x —> quanto maior o valor de A, mais rapidamente a fun^ao tende a zero. 

Na distribui^ao exponencial, a media deXe: 

E(x)= t 

A (5.60) 

a variancia deXe: 

Var(X)=± 

A (5.61) 

E a fun^ao de distribincao acumulada F(x) e dada por: 

F (x)=P(X < x)=jf(x)dx =|^ 

de onde podemos concluir que: 

P(X>x)=e~ Xx (5.63) 


,se x>0 
,se x<0 


(5.62) 


Em confiabilidade de sistemas, a variavel aleatoria X representa a dura 9 ao de vida, isto e, o tempo em que 
um componente ou sistema mantem a sua capacidade de trabalho, fora do intervalo de reparos e acima de um 
limite especificado (rendimento, pressao, entre outros exemplos).Ja o parametro A representa a taxa de falha, ou 
seja, a quantidade de componentes ou sistemas que falham em um intervalo de tempo estabelecido: 


numero de falhas 
tempo de opera^ao 


(5.64) 


As principals medidas de confiabilidade sao: a) Tempo medio para falhar (MTTF - Mean Time to Failure) e b) 
Tempo medio entre falhas (MTBF — Mean Time Between Failures) . Matematicamente, MTTF e MTBF sao iguais 
a media da distribui^ao exponencial e representam o tempo medio de vida. Assim, a taxa de falha tambem pode 
ser calculada como: 


MTTF • MTBF 


(5.65) 


Em teoria das filas, a variavel aleatoria X representa o tempo medio de espera ate a proxima chegada (tempo 
medio entre duas chegadas de clientes). Ja o parametro A representa a taxa media de chegadas, ou seja, o nu¬ 
mero esperado de chegadas por unidade de tempo. 


Rela^ao entre a distribui^ao Poisson e a exponencial 

Se o numero de ocorrencias de um processo de contagens segue a distribui^ao Poisson (A), entao as variaveis 
aleatorias tempo ate a primeira ocorrencia e tempo entre quaisquer ocorrencias sucessivas do processo referido tern distri- 
bui^ao exp (A). 

■ EXEMPLO 15 

O tempo de vida util de um componente eletronico segue uma distribui^ao exponencial com vida media de 
120 horas. Determine: 

a) Probabilidade de um componente falhar nas primeiras 100 horas de funcionamento; 

b) Probabilidade de um componente durar mais do que 150 horas. 

■ SOLU^AO 

Seja A = 1/120 e X- exp(l/120). Logo: 
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100 * . ™ 

r - 120 • p 

a) P(X<100)=J 120-e 120 dx = 


120 


120 


100 


100 


120 


100 

’ 120 +1=0,5654 


OO x 

b) P(X>150) = J 120 -e~™dx = - 


120-e 


120 


150 


120 


150 


120 


150 


150 

e 120 =0,2865 


5.4.4. Distribui<;ao Gama 

A distribuifao Gama e uma das mais gerais, de modo que outras distributes, como a Erlang, exponencial 
e qui-quadrado (% 2 ) sao casos particulares. Assim como a distribui^ao exponencial, e tambem muito utilizada em 
confiabilidade de sistemas. A distribui^ao Gama tern tambem aplica^oes em fenomenos fisicos, processos meteo- 
rologicos, teoria de riscos de seguros e teoria economica. 

Uma variavel aleatoria continua X tern distribui^ao Gama com parametros Ot > 0 e X > 0, denotada por 
X ~ Gama(a, A), se sua fun^ao densidade de probabilidade for dada por: 


/(*)= 


r (a) 

0 


a-1 -X-x ^ A 

•x • e , se x>0 


, se x<0 


(5.66) 


em que T(a) e a fun^ao Gama, dada por: 


T(a)=je x -x a 1 dx,a>0 


o (5.67) 

A hincao densidade de probabilidade Gama, para alguns valores de OC e X, esta representada na Figura 5.18. 



Figure 5.18 Funcao densidade de probabilidade Gama para alguns valores de ae X. 

Fonte: Navidi (2012). 


Podemos notar que a distribui^ao Gama e assimetrica positiva (a direita), observando maior frequencia para 
valores menores de x e uma cauda mais longa a direita. Porem, a medida que a tende ao infinito, a distribuicao 
torna-se simetrica. Observamos tambem que quando a = 1, a distribuicao Gama e igual a exponencial. E ainda, 
que quanto maior o valor de X, mais rapidamente a funcao de densidade tende a zero. 
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O valor esperado de X pode ser calculado como: 

E(X) = a ■ A 


Ja a variancia de X e dada por: 


Var(X) = a • A 2 


E a funcao de distrihuicao acumulada e: 


F(x) = P(X<x)=jf(x)dx 
0 


A a 

T(a) 


x 


a-1 


•e ^ dx 


(5.68) 

(5.69) 


(5.70) 


Casos particulares da distribui^ao Gama 

Uma distribui<gao Gama com parametro (X inteiro positivo e denominada distribui^ao Erlang, de modo 
que: 

Se Of for inteiro positivo => X~ Gama(Of,/l) = X~Erlang(Of,/l) 

Conforme mencionado, uma distribui^ao Gama com parametro OC = 1 e denominada distribu^ao expo- 
nencial: 

Se oc =1 =^> X~ Gama (af,A) = X~ exp (Z) 

Ou ainda, uma distribui^ao Gama com parametro Of = n/2 e X — 1/2 e denominada distribui^ao qui-qua- 
drado com V graus de liberdade: 

Se a=n/ 2, A=l/2 => X~Gama(rc/2,1/2) = X~;^ V=M 


Rela^ao entre a distribui^ao Poisson e a Gama 

Na distribui^ao Poisson, busca-se determinar o numero de ocorrencias de um evento no periodo fixado. Ja 
a distribui^ao Gama determina o tempo necessario para a obten^ao de um numero especificado de ocorrencias 
do evento. 


5.4.5. Distribui^ao qui-quadrado 

Uma variavel aleatoria contmua X tern distribui^ao qui-quadrado com V graus de liberdade, denotada por 
X ~ se sua funcao densidade de probabilidade for dada por: 


em que T(a)=je~ x ■x a ~ x dx 
o 


/(*H 


2 V/2 

0 


J._ 

T(v/2) 


•x 


(v/2)-l' e -x/2 


x>0 

x<0 


(5.71) 


A distribui^ao X 2 pode ser simulada a partir da distribui^ao normal. Consideremos Z 1? Z 2 ,... Zy variaveis ale¬ 
atorias independentes com distribui^ao normal padrao (media zero e desvio-padrao 1). Entao, a soma dos qua- 
drados das V variaveis aleatorias sera uma distribui^ao qui-quadrado com V graus de liberdade: 


x 2 v =z 2 +z 2 2 +...+z 2 v 


(5.72) 


Esta distribui^ao apresenta uma curva assimetrica positiva, e sua representa^ao grafica, para diferentes valores 
de V, esta ilustrada na Figura 5.19. 
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Figura 5.19 Distributor 2 para diferentes valores de v. 


Como a distribute* X 2 e proveniente da soma dos quadrados de V variaveis aleatorias que apresentam distri¬ 
bute normal com media zero e variancia 1 , para valores elevados de V, a distribute* X 2 aproxima-se de uma 
distribute* normal padrao, como pode ser observado a partir da Figura 5.19 (Favero et al., 2009). Podemos notar 
tambem que a distribui^ao X 2 com 2 graus de liberdade equivale a uma distribute* exponencial com X — 1/2. 

O valor esperado de X pode ser calculado como: 


E(X) = v 

(5.73) 

Ja a variancia de X e dada por: 


Var(X) = 2- V 

(5.74) 

E a funcao de distribuicao acumulada e: 


F(x c )=P(X<x c ) = J f( x ) dx = ^ V r{v/2) ^ 

x c 

(5.75) 

em que y(a,x c ) = jx*' 1 -e~ x dx 


0 

Se o objetivo for calcular P(X > x c ), temos que: 


P(X>x c )=jf(x)dx 

x c 

(5.76) 


que pode ser representada por meio da Figura 5.20. 
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Figura 5.20 Representagao grafica da P{X> x c ) para uma variavel aleatoria com distributor 2 . 

A distribui^ao X 2 possui diversas aplica^oes em inferencia estatistica. Devido a sua importancia, a distribui^ao 
X 2 esta tabulada para diferentes valores do parametro V (Tabela D do apendice do livro). Essa tabela fornece os 
valores criticos de x c tal que P(X > x c ) — 0C; em outras palavras, podemos obter o calculo das probabilidades e da 
fun^ao densidade de probabilidade acumulada para diferentes valores de x da variavel aleatoria X. 

■ EXEMPLO 16 

Suponha que a variavel aleatoria Xsiga uma distribui^ao qui-quadrado (X 2 ) com 13 graus de liberdade. Determine: 

a) P(X > 5) 

b) O valor x tal que P(X < x) = 0,95 

c) O valor x tal que P(X > x) = 0,95 

■ SOLU^AO 

Por meio da tabela de distribui^ao X 2 (Tabela D do apendice do livro), para V = 13, temos que: 

a) P(X > 5) = 97,5% 

b) 22,362 

c) 5,892 

5.4.6. Distribui^ao f de Student 

A distribui^ao t de Student foi desenvolvida por William Sealy Gosset e e uma das principais distributes 
de probabilidade, com inumeras aplica^oes em inferencia estatistica. 

Vamos supor uma variavel aleatoria Z que tenha distribui^ao normal com media zero e desvio-padrao 1, e 
uma variavel aleatoria X com distribui^ao qui-quadrado com V graus de liberdade, de modo que Z e X sejam 
independentes. Uma variavel aleatoria contmua T pode entao ser definida como: 

< 5 - 77 ) 

VX/v 

Podemos dizer que a variavel T possui distribui^ao t de Student com V graus de liberdade, denotada por T ~ 
t v se sua fun^ao densidade de probabilidade for dada por: 


em que T(a) = je x -x a l dx 
0 


m=- 


rft 

l 2 J 

V2 J 


< 2 \ ' 


V+l 


1 + — 
V 




(5.78) 
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A Figura 5.21 exibe o comportamento da fun^ao densidade de probabilidade da distribui^ao t de Student para 
diferentes graus de liberdade V, em compara^ao com a distribui^ao normal padrao. 





- N(0,1) . v = 1 -v = 5 

V_ 

Figura 5.21 Fungao densidade de probabilidade da distribui^ao t de Student para diferentes 
vaiores de v e compara^ao com a distribui^ao normal padrao. 


Podemos notar que a distribui^ao t de Student e simetrica em torno da media, com formato de sino, e asseme- 
lha-se a uma distribui^ao normal padrao, porem, com caudas mais largas, podendo gerar vaiores mais extremos 
que aqueles presentes em uma distribui^ao normal. 

O parametro V (numero de graus de liberdade) define e caracteriza a forma da distribui^ao t de Student ; quan¬ 
to maior for o valor de V, mais a distribui^ao t de Student se aproxima de uma normal padrao. 

O valor esperado de T e dado por: 

E(T) = 0 (5.79) 

Ja a variancia de T pode ser calculada como: 


Var(T)= , V>2 
V-2 

E a fun^ao de distribui^ao acumulada e dada por: 

h 

F(t c ) = P{T<t c )=\f(t)dt 

Se o objetivo for calcular P(T> 4 ), temos que: 

P(T>t c )=]f(t)dt 

‘c 


conforme mostra a Figura 5.22. 



(5.80) 


(5.81) 


(5.82) 


Figura 5.22 Representa$ao grafica da distribuigao f de Student. 
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Assim como as distributees normal e qui-quadrado (% 2 ), a distribui^ao t de Student tem inumeras aplicagoes 
em inferencia estatistica, de modo que existe uma tabela para obten^ao das probabilidades, em fun^ao de dife- 
rentes valores do parametro V (Tabela B do apendice do livro). Essa tabela fornece os valores criticos de t c tal que 
P(T > Q = CC ; em outras palavras, podemos obter o calculo das probabilidades e da fun^ao densidade de proba¬ 
bilidade acumulada para diferentes valores de t da variavel aleatoria T. 

Faremos uso da distribui^ao t de Student quando estudarmos os modelos de regressao simples e multipla 
(Capitulo 12). 

M EXEMPLO 17 

Suponha que a variavel aleatoria T segue distribui^ao t de Student com 7 graus de liberdade. Determine, por 
meio da Tabela B do apendice: 

a) P(T> 3,5) 

b) P(T < 3) 

c) P(T<- 0,711) 

d) O valor t tal que P(T < t) - 0,95 

e) O valor t tal que P(T > t) = 0,10 

m soLugAo 

a) 0,5% 

b) 99% 

c) 25% 

d) 1,895 

e) 1,415 


5.4.7. Distributao F de Snedecor 

A distribui^ao F de Snedecor, tambem conhecida como distributao de Fisher, e frequentemente utili- 
zada em testes associados a analise de variancia (ANOVA),para compara^ao de medias de mais de duas populates. 
Consideremos as variaveis aleatorias continuas Y t e Y 2 , de modo que: 

• Y t e Y 2 sao independentes; 

• Y 1 tem distribui<~ao qui-quadrado com V 1 graus de liberdade, denotada por Y 1 ~ xl^ 

• Y 2 tem distribui^ao qui-quadrado com V 2 graus de liberdade, denotada por Y 2 ~Xv 2 - 

Definiremos uma nova variavel aleatoria continua X tal que: 
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Podemos notar que a distribui^ao F de Snedecor e assimetrica positiva (a direita), observando maior frequen- 
cia para valores menores de x e uma cauda mais longa a direita. Porem, a medida que V 1 e V 2 tendem ao infinito, 
a distribui^ao torna-se simetrica. 

O valor esperado de X e calculado como: 


Ja a variancia de X e dada por: 


E(X )=—- Para V 2 > 2 
V 2 -2 


Var(X) = 


2-V^(v 1 + V 2 -2) 
Vr(v 2 -4)-(v 2 -2) 2 ’ 


para V 2 > 4 


(5.85) 


(5.86) 


Assim como as distributes normal, X 2 e t de Student, a distribui^ao F de Snedecor apresenta diversas aplica- 
£oes em inferencia estatistica, de modo que existe uma tabela para obten^ao das probabilidades e da fun^ao de 
distribui^ao acumulada, em fun^ao de diferentes valores dos parametros V a e V 2 (Tabela A do apendice do livro). 
Essa tabela fornece os valores criticos de F c tal que P(X > F c ) = a. 



Figura 5.24 Valores criticos da distribui^ao F de Snedecor. 


Usaremos a distribui^ao F de Snedecor quando estudarmos os modelos de regressao simples e multipla 
(Capitulo 12). 
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Rela^ao entre a distribute) t de Student e F de Snedecor 

Consideremos uma variavel aleatoria T com distribui^ao t de Student com V graus de liberdade. Entao, o 
quadrado da variavel T tern distribui^ao F de Snedecor com V 1 = 1 e V 2 graus de liberdade, como demonstram 
Favero et al. (2009). Assim: 

Se T~ t v , entao T 2 ~ F l9V2 

M EXEMPLO 18 

Suponha que a variavel aleatoria X siga uma distribui^ao F de Snedecor com V a = 6 graus de liberdade no 
numerador e V 2 = 12 graus de liberdade no denominador, isto e, X~ F 6>12 . Determine: 

a) P(X > 3) 

b) F 6j12 com OC = 10% 

c) O valor x tal que P(X < x) = 0,975 

■ SOLU^AO 

Por meio da tabela de distribui^ao F de Snedecor (Tabela A do apendice do livro), para V 1 — 6 e V 2 = 12 te- 
mos que: 

a) P(X > 3) = 5% 

b) 2,33 

c) 3,73 

O Quadro 5.2 apresenta o resumo das distributes continuas estudadas nesta se^ao, incluindo o calculo da 
fun^ao de probabilidade da variavel aleatoria, os parametros da distribui^ao e o calculo do valor esperado e da 
variancia de X. 


Quadro 5.2 Distributes para variaveis continuas. 
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5.5. CONSIDERA0ES FINAfS 

Este capitulo apresentou as principals distributes de probabilidade utilizadas em inferencia estatistica, in- 
cluindo as distributes para variaveis aleatorias discretas (uniforme discreta, Bernoulli, binomial, geometrica, bi¬ 
nomial negativa, hipergeometrica e Poisson) e para variaveis aleatorias continuas (uniforme, normal, exponencial, 
Gama, qui-quadrado (£ 2 ), t de Student e F de Snedecor). 

Na caracteriza^ao das distributes de probabilidade, e de grande importancia a utiliza^ao de medidas que 
indiquem aspectos relevantes da distribui^ao, como medidas de posi^ao (media, mediana e moda), medidas de 
dispersao (variancia e desvio-padrao) e medidas de assimetria e curtose. 

O entendimento dos conceitos relativos a probabilidade e distributes de probabilidade auxilia o pesquisador 
no estudo de topicos sobre inferencia estatistica, incluindo testes de hipoteses parametricos e nao parametricos, 
analise multivariada por tecnicas exploratorias e estima^ao de modelos de regressao, conforme estudaremos ao 
longo do livro. 

5.6. EXERCICIOS 

1) Em uma linha de produ^ao de cal^ados, a probabilidade de que uma pe^a defeituosa seja produzida e de 2%. 
Para um lote de 150 pe$as, determine a probabilidade de que, no maximo, duas pe^as sejam defeituosas. Calcule 
tambem a media e a variancia. 

2) A probabilidade de que um aluno resolva determinado problema e de 12%. Se 10 alunos sao selecionados ao 
acaso, qual a probabilidade de que exatamente um deles tenha sucesso? 

3) Um vendedor de telemarketing vende um produto a cada 8 clientes contatados. O vendedor prepara uma lista 
de clientes. Determine a probabilidade de que o primeiro produto seja vendido na quinta liga^ao, alem do valor 
esperado das vendas e a respectiva variancia. 

4) A probabilidade de acerto de um jogador em uma cobran^a de penalti e de 95%. Determine a probabilidade 
de que o jogador necessite realizar 33 cobrangas para fazer 30 gols, alem da media de cobran^as. 

5) Suponha que, em determinado hospital, 3 clientes sao operados diariamente de cirurgia do estomago, se- 
guindo uma distribui^ao Poisson. Calcule a probabilidade de que 28 clientes sejam operados na proxima semana 
(7 dias uteis). 

6) Suponha que determinada variavel aleatoria X siga uma distribui^ao normal com = 8 e G 2 = 36. Determine 
as seguintes probabilidades: 

a) P(X< 12) 

b) P(X < 5) 

c) P(X > 2) 

d) P(6 < X < 11) 

7) Considere a variavel aleatoria Z com distribui^ao normal padrao. Determine o valor critico tal que 
P(Z > z c ) = 80%. 

8 ) No lan^amento de 40 moedas honestas, determine as probabilidades de: 

a) Sairem exatamente 22 caras; 

b) Sairem mais de 25 caras. 

Resolva este exercicio aproximando a distribui^ao pela normal. 

9) O tempo ate a falha de um dispositivo eletronico segue uma distribui^ao exponencial com uma taxa de falha 
por hora de 0,028. Determine a probabilidade de um dispositivo escolhido ao acaso sobreviver: 

a) 120 horas; 

b) 60 horas. 
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10) Certo tipo de equipamento segue uma distribui^ao exponencial com vida media de 180 boras. Determine: 

a) A probabilidade de o equipamento durar mais de 220 horas; 

b) A probabilidade de o equipamento durar, no maximo, 150 horas. 

11) A chegada dos pacientes em um laboratorio segue uma distribui^ao exponencial com taxa media de 1,8 
cliente por minuto. Determine: 

a) A probabilidade de que a chegada do proximo cliente demore mais de 30 segundos; 

b) A probabilidade de que a chegada do proximo cliente demore, no maximo, 1,5 minuto. 

12) O tempo entre as chegadas dos clientes em um restaurante segue uma distribui^ao exponencial com media 
de 3 minutos. Determine: 

a) A probabilidade de que mais de 3 clientes cheguem em 6 minutos; 

b) A probabilidade de que o tempo ate a chegada do quarto cliente seja inferior a 10 minutos. 

13) Uma variavel aleatoria X possui distribui^ao qui-quadrado com V = 12 graus de liberdade. Qual e o valor 
critico tal que P(X > x^j — 90%? 

14) Suponha agora que X siga uma distribui^ao qui-quadrado com V = 16 graus de liberdade. Determine: 

a) P(X > 25) 

b) P(X< 32) 

c) P(25 < X < 32) 

d) O valor x tal que P(X < x) = 0,975 

e) O valor x tal que P(X > x) = 0,975 

15) Uma variavel aleatoria T segue uma distribui^ao t de Student com V = 20 graus de liberdade. Determine: 

a) O valor critico t c tal que P(-t c < t < t c ) = 95% 

b) E(T) 

c) Var(T) 

16) Suponha agora que T siga uma distribui^ao t de Student com V — 14 graus de liberdade. Determine: 

a) P(T> 3) 

b) P(T< 2) 

c) P(l,5 <T< 2) 

d) O valor t tal que P(T < t) = 0,90 

e) O valor t tal que P(T > t) = 0,025 

17) Considere uma variavel aleatoria X que segue uma distribui^ao F de Snedecor com V x — 4 e V 2 = 16 graus 
de liberdade, isto e, X ~ ^4,16* Determine: 

a) P(X> 3) 

b) F 416 com a = 2,5% 

c) O valor x tal que P(X < x) = 0,99 

d) E(X) 

e) Var(X) 
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Ao final deste capitulo, voce sera capaz de: 

• Caracterizar as diferengas entre populagao e amostra. 

• Descrever as principals tecnicas de amostragem aleatoria e nao aleatoria, assim como suas vantagens e 
desvantagens. 

• Escolher a tecnica de amostragem adequada para o estudo em questao. 

• Calcular o tamanho da amostra em fungao da precisao e do grau de confianga desejado, para cada tipo de 
amostragem aleatoria. 


6 . 1 . INTRODUgAO 

Conforme discutido na Introdugao, populagao e o conjunto com todos os individuos, objetos ou elementos 
a serem estudados, que apresentam uma ou mais caracteristicas em comum. O censo e o estudo dos dados rela¬ 
tives a todos os elementos da populagao. 

Segundo Bruni (2011), as populagoes podem ser finitas ou infinitas. As populates finitas sao de tamanho 
limitado, permitindo que seus elementos sejam contados; ja as populates infinitas sao de tamanho ilimitado, 
nao permitindo a contagem dos elementos. 

Como exemplos de populates finitas, podemos mencionar a quantidade de empregados em determinada 
empresa, de associados em um clube, de produtos fabricados em determinado periodo, etc. Quando o numero de 
elementos da populagao, embora possa ser contado, for muito grande, assumimos que a populagao e infinita. Sao 
exemplos de populates consideradas infinitas a quantidade de habitantes no mundo, de residences existentes no 
Rio de Janeiro, de pontos em uma reta, etc. 

Desta forma, existem situagoes em que o estudo com todos os elementos da populagao e impossivel ou inde- 
sejavel, de modo que a alternativa seja extrair um subconjunto da populagao em analise, denominado amostra. 
A amostra deve ser representativa da populagao em estudo, dai a importancia deste capitulo. A partir das infor- 
magoes colhidas na amostra e utilizando procedimentos estatisticos apropriados, os resultados obtidos podem ser 
utilizados para generalizar, inferir ou tirar conclusoes acerca da populagao (inferencia estatistica). 

Para Favero et al. (2009) e Bussab e Morettin (2011), raramente e possivel obtermos a distribuigao exata de 
uma variavel, devido ao alto custo, ao tempo despendido e as dificuldades de levantamento de dados. Desta forma, 
a alternativa e selecionarmos parte dos elementos da populagao (amostra) e, a partir dela, inferirmos propriedades 
para o todo (populagao). 

Existem, basicamente, dois tipos de amostragem: (1) amostragem probabilistica ou aleatoria e (2) amostragem 
nao probabilistica ou nao aleatoria. Na amostragem aleatoria, as amostras sao obtidas aleatoriamente, ou seja, a 
probabilidade de cada elemento da populagao fazer parte da amostra e igual. Ja na amostragem nao aleatoria, a 
probabilidade de alguns ou de todos os elementos da populagao pertencer a amostra e desconhecida. 

A Figura 6.1 apresenta as principals tecnicas de amostragem aleatoria e nao aleatoria. 
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Figura 6.1 Principals tecnicas de amostragem. 


Favero et ah (2009) apresentam as vantagens e desvantagens das tecnicas aleatorias e nao aleatorias. Com rela- 
$ao as tecnicas de amostragem aleatoria, as principais vantagens sao: a) os criterios de sele^ao dos elementos estao 
rigorosamente definidos, nao permitindo que a subjetividade dos investigadores ou do entrevistador intervenha 
na escolha dos elementos; b) a possibilidade de determinar matematicamente a dimensao da amostra em fun^ao 
da precisao e do grau de confian^a desejado para os resultados. Por outro lado, as principais desvantagens sao: a) 
dificuldade em obter listagens ou regioes atuais e completas da popula^ao; b) a sele^ao aleatoria pode originar 
uma amostra muito dispersa geograficamente, aumentando os custos, o tempo envolvido no estudo e a dificul¬ 
dade de coleta de dados. 

Em rela^ao as tecnicas de amostragem nao aleatoria, as vantagens referem-se ao menor custo, ao menor tempo 
de estudo e a menor necessidade de mao-de-obra. Como desvantagens, podemos listar: a) ha unidades do uni- 
verso que nao tern possibilidade de serem escolhidas; b) pode ocorrer um vies de opiniao pessoal; c) nao se sabe 
com que grau de confian^a as conclusoes obtidas podem ser inferidas para a popula^ao. Essas tecnicas nao utili- 
zam um metodo aleatorio para sele^ao dos elementos da amostra, de modo que nao ha garantia de que a amostra 
selecionada seja representativa da popula^ao (Favero et ah , 2009). 

A escolha da tecnica de amostragem deve levar em conta os objetivos da pesquisa, o erro aceitavel nos resul¬ 
tados, a acessibilidade aos elementos da popula^ao, a representatividade desejada, o tempo dispendido e a dispo- 
nibilidade de recursos financeiros e humanos. 

6.2. AMOSTRAGEM PROBABILl'STICA OU ALEATORIA 

Neste tipo de amostragem, as amostras sao obtidas de forma aleatoria, ou seja, a probabilidade de cada ele- 
mento da popula^ao fazer parte da amostra e igual, e todas as amostras selecionadas sao igualmente provaveis. 

Nesta se^ao, estudaremos as principais tecnicas de amostragem probabilistica ou aleatoria: (a) amostra¬ 
gem aleatoria simples, (b) amostragem sistematica, (c) amostragem estratificada, (d) amostragem por con- 
glomerados. 

6.2.1. Amostragem aleatoria simples 

Segundo Bolfarine e Bussab (2005), a amostragem aleatoria simples (AAS) e o metodo mais simples e mais 
importante para a sele^ao de uma amostra. 

Considere uma popula^ao ou universo (U) com N elementos: 

u = { 1 , 2 , ...,n} 
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O planejamento e selegao da amostra, de acordo com Bolfarine e Bussab (2005), envolvem os seguintes passos: 

a) Utilizando um procedimento aleatorio (por exemplo, por meio de tabela de numeros aleatorios ou urna), 
devemos sortear com igual probabilidade um elemento da populagao U ; 

b) Repetimos o processo anterior ate que seja retirada uma amostra com n observagoes (o calculo do tama- 
nho da amostra aleatoria simples sera estudado na segao 6.4); 

c) Quando o elemento sorteado for removido de U antes do proximo sorteio, teremos o processo AAS sem 
reposigao. Caso seja permitido o sorteio de uma unidade mais de uma vez, estaremos diante do processo 
AAS com reposigao. 

De acordo com Bolfarine e Bussab (2005), do ponto de vista pratico, a AAS sem reposigao e muito mais in- 
teressante, pois satisfaz o principio intuitivo de que nao se ganha mais informagao caso uma mesma unidade apa- 
rega mais de uma vez na amostra. Por outro lado, a AAS com reposigao traz vantagens matematicas e estatisticas, 
como a independence entre as unidades sorteadas. Estudaremos a seguir cada uma delas. 


6.2.1.1. Amostragem aleatoria simples sem reposiqao 

De acordo com Bolfarine e Bussab (2005), a AAS sem reposigao opera da seguinte forma: 

a) Todos os elementos da populagao sao numerados de 1 a N: 

U = {\,2,...,N] 


b) Utilizando um procedimento de geragao de numeros aleatorios, devemos sortear, com igual probabilidade, 
uma das N observagoes da populagao; 

c) Sorteamos um elemento seguinte, com o elemento anterior sendo retirado da populagao; 

d) Repetimos o procedimento ate que n observagoes tenham sido sorteadas (o calculo de n esta explicitado 
na segao 6.4.1). 


Neste tipo de amostragem, ha C N n = 


(N\ 


K n ) 


Nl 


n\(N-n)\ 


possiveis amostras de n elementos que podem ser ex- 


traidas a partir da popula^ao, e cada amostra tern a mesma probabilidade, j 

M EXEMPLO 1 - AMOSTRAGEM ALEATORIA SIMPLES SEM REPOSI^AO 


y n^ 


, de ser selecionada. 


A Tabela 6.1 refere-se ao peso (kg) de 30 pegas. Extraia, sem reposigao, uma amostra aleatoria de tamanho n 
= 5. Quantas amostras diferentes de tamanho n podem ser extraidas da populagao? Qual a probabilidade de que 
uma amostra seja selecionada? 


Tabela 6.1 Peso (kg) de 30 pegas. 


6,4 

6,2 

7,0 

6,8 

7,2 

6,4 

6,5 

7,1 

6,8 

6,9 

7,0 

7,1 

6,6 

6,8 

6,7 

6,3 

6,6 

7,2 

7,0 

6,9 

6,8 j 

6,7 

6,5 1 

7,2 

6,8 

6,9 

7,0 

6,7 

6,9 

6,8 


■ solu^Ao 

As 30 pegas foram numeradas de 1 a 30, como mostra a Tabela 6.2. 


Tabela 6.2 Numeragao das pegas. 


1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

6,4 

6,2 

7,0 

6,8 

7,2 

6,4 

6,5 

7,1 

6,8 

6,9 

7,0 

7,1 

6,6 

6,8 

6,7 

16 

17 

18 

19 

20 

21 

22 

23 

24 

25 

26 

27 

28 

29 

30 

6,3 

6,6 

7,2 

7,0 

6,9 

6,8 

6,7 

6,5 

7,2 

6,8 

6,9 

7,0 

6,7 

6,9 

6,8 


Por meio de um procedimento aleatorio (por exemplo, podemos utilizar a fungao ALEATORIOENTRE 
do Excel), foram selecionados os seguintes numeros: 


02 03 14 24 28 
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As pe^as associadas a esses numeros constituem a amostra aleatoria selecionada. 


Ha 


^ 30 ^ 
V 5 J 


30-29-28-27-26 

5! 


= 142.506 amostras diferentes. 


A probabilidade de que determinada amostra seja selecionada e 1/142.506. 


6.2.7.2. Amostragem aleatoria simples com reposigao 

De acordo com Bolfarine e Bussab (2005), a AAS com reposigao opera da seguinte forma: 

a) Todos os elementos da popula^ao sao numerados de 1 a N: 

U = {1, 2, 

b) Utilizando um procedimento de gera^ao de numeros aleatorios, devemos sortear, com igual probabilidade, 
uma das N observa^oes da popula^ao; 

c) Repomos essa unidade na popula^ao e sorteamos o elemento seguinte; 

d) Repetimos o procedimento ate que n observa^oes tenham sido sorteadas (o calculo de n esta explicitado 
na se^ao 6.4.1). 

Neste tipo de amostragem, ha N n amostras possiveis de n elementos que podem ser extraidas a partir da po- 
pula^ao, e cada amostra tern a mesma probabilidade, 1/N”, de ser selecionada. 

■ EXEMPLO 2 - AMOSTRAGEM ALEATORIA SIMPLES COM REPOSI^AO 

Refaga o Exemplo 1 considerando amostragem aleatoria simples com reposi^ao. 

■ SOLIRAO 

As 30 pe^as foram numeradas de 1 a 30. Por meio de um procedimento aleatorio (por exemplo, podemos 
utilizar a fun^ao ALEATORIOENTRE do Excel), sorteamos a primeira pe$a da amostra (12). Essa pe$a e re- 
posta e o segundo elemento e sorteado (33). O procedimento e repetido ate que tenham sido sorteadas 5 pe^as: 

12 33 02 25 33 

As pe^as associadas a esses numeros constituem a amostra aleatoria selecionada. 

Ha 30 5 = 24.300.000 amostras diferentes. 

A probabilidade de que determinada amostra seja selecionada e 1/24.300.000. 


6.2.2. Amostragem sistematica 

Segundo Costa Neto (2002), quando os elementos da popula^ao estiverem ordenados e forem retirados pe- 
riodicamente, teremos uma amostragem sistematica. Assim, por exemplo, em determinada linha de produ^ao, po¬ 
demos retirar um elemento a cada 50 itens produzidos. 

Como vantagens da amostragem sistematica, em rela^ao a amostragem aleatoria simples, podemos mencio- 
nar que e executada com maior rapidez e menor custo, alem de estar bem menos sujeita a erros do entrevistador 
durante a pesquisa. A principal desvantagem e a possibilidade de existirem ciclos de varia^ao, especialmente se 
o periodo de ciclos coincidir com o periodo de retirada dos elementos da amostra. Por exemplo, suponha que 
a cada 60 pe^as produzidas em determinada maquina, uma pe^a seja inspecionada; porem, ocorre regularmente 
nessa maquina uma falha, de modo que, a cada 20 pe^as produzidas, uma e defeituosa. 

Supondo que os elementos da popula^ao estejam ordenados de 1 a N e que ja conhecemos o tamanho da 
amostra (n), a amostragem sistematica opera da seguinte forma: 


a) Devemos determinar o intervalo de amostragem (fe), obtido pelo quociente entre o tamanho da popula^ao 
e o tamanho da amostra: 



n 


Esse valor deve ser arredondado para o inteiro mais proximo. 
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b) Nesta fase, introduzimos um elemento de aleatoriedade, escolhendo a unidade de partida. O primeiro ele- 
mento escolhido {X^ pode ser um elemento qualquer entre 1 e k\ 

c) Escolhido o primeiro elemento, a cada k elementos, um novo elemento e retirado da popula^ao. O pro- 
cesso e repetido ate atingir o tamanho da amostra ( n ): 

X 1 ,X 1 +k,X 1 +2k,...,X 1 +(n-l)k 

M EXEMPLO 3 - AMOSTRAGEM SISTEMATICA 

Imagine uma popula^ao com N = 500 elementos ordenados. Deseja-se retirar uma amostra com n — 20 ele¬ 
mentos dessa popula^ao. Aplique o procedimento da amostragem sistematica. 

■ SOLU^AO 

a) O intervalo de amostragem ( k ) e: 

k ="=™ =25 
n 20 

b) O primeiro elemento escolhido {X} pode ser um elemento qualquer entre 1 e 25; suponha que X — 5; 

c) Como o primeiro elemento da amostra e X = 5, o segundo elemento sera X = 5 + 25 = 30, o terceiro 
elemento sera X = 5 + 50 = 55 e assim sucessivamente, de modo que o ultimo elemento da amostra sera 
X= 5 + 19 x 25 = 480: 


5, 30, 55, 80,105,130,155,180,205,230,255,280, 305, 330, 355,380, 
405,430, 455,480 


6.23. Amostragem estratificada 

Neste tipo de amostragem, uma popula^ao heterogenea e estratificada ou dividida em subpopula^oes ou es- 
tratos homogeneos, e, em cada estrato, uma amostra e retirada. Desta forma, definimos, inicialmente, o numero de 
estratos e obtemos, assim, o tamanho de cada um deles; para cada estrato, especificamos quantos elementos serao 
retirados da subpopula^ao, podendo ser uma aloca^ao uniforme ou proporcional. Segundo Costa Neto (2002), 
a amostragem estratificada uniforme, em que sorteamos numero igual de elementos em cada estrato, e re- 
comendada quando os estratos forem aproximadamente do mesmo tamanho. Ja na amostragem estratificada 
proporcional, o numero de elementos em cada estrato e proporcional ao numero de elementos existentes no 
estrato. 

Segundo Freund (2006), se os elementos selecionados em cada estrato constituirem amostras aleatorias sim¬ 
ples, o processo global (estratifica^ao seguida de amostragem aleatoria) sera chamado de amostragem aleatoria 
estratificada (simples). 

A amostragem estratificada, segundo Freund (2006), opera da seguinte forma: 

a) Uma popula^ao de tamanho N e dividida em k estratos de tamanhos N u N 2 , ..., N k ; 

b) Para cada estrato, uma amostra aleatoria de tamanho n { (i = 1,2 ..., k) e selecionada, resultando em k suba- 
mostras de tamanhos n u n 2 , ..., n k . 

Na amostragem estratificada uniforme, temos que: 

n x -n 2 

de modo que o tamanho da amostra extraida de cada estrato e: 


n 

n l =-—, para i— 1, 2,...,fe 
k 

em que n = n x + n 2 +... + n k . 

Ja na amostragem estratificada proporcional, temos que: 
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^h_ = n2_ = = n k 

N, N 2 "• N k 


(6.3) 


Na amostragem estratificada proporcional, o tamanho da amostra extraida de cada estrato pode ser obtido de 
acordo com a seguinte expressao: 


3 

N 


■• n , para i=1,2, ...,k 


(6.4) 


Como exemplos de amostragem estratificada, podemos citar a estratifica^ao de uma cidade em bairros, de 
uma popula^ao por sexo ou faixa etaria, de consumidores por segmento ou de alunos por escola. 

O calculo do tamanho da amostra estratificada sera estudado na se^ao 6.4.3. 


■ EXEMPLO 4 - AMOSTRAGEM ESTRATIFICADA 

Considere um clube que possui N = 5.000 associados. A popula^ao pode ser dividida por faixa etaria, com o 
objetivo de identificar as principal atividades praticadas por cada faixa: ate 4 anos; 5 a 11 anos; 12 a 17 anos; 18 
a 25 anos; 26 a 36 anos; 37 a 50 anos; 51 a 65 anos; acima de 65 anos.Temos que N x = 330, N 2 — 350, iV 3 = 400, 
N 4 = 520, N 5 = 650, N e = 1030, N 7 = 980, N s = 740. Deseja-se extrair uma amostra estratificada de tamanho n 
— 80 da popula^ao. Qual deve ser o tamanho da amostra extraida de cada estrato, no caso de amostragem unifor¬ 
me e de amostragem proporcional? 


■ SOLU^AO 

Para amostragem uniforme, n { = n/k — 80/8 = 10. Logo, n x — ... = n 8 = 10. 

N. 

Para amostragem proporcional, calculamos n x =— L *n, para i— 1, 2,.... 8 : 


N. 330 

ft-, =- n— - 

N 5.000 


•80 = 5,3 = 6, 


N 2 350 

n 0 — - n— - 

N 5.000 


•80 = 5,6=6 


-ii.„-J52_. 80= 6, 4 = 7 , 


N 


5.000 


n 4 =— l. n= -520_. 8 0=8 ; 3=9 

4 N 5.000 


N, 650 

Ur =- n— - 

N 5.000 


•80=10,4=11, 


N 6 1.030 

ris =- n— - 

6 N 5.000 


•80 = 16,5 = 17 


N 7 980 

n 7 =— --n— - 

7 N 5.000 


•80 = 15,7 = 16, 


n s 



740 

5.000 


•80 = 11,8 = 12 


6.2.4. Amostragem por conglomerados 

Na amostragem por conglomerados, a popula^ao total deve ser subdividida em grupos de unidades elemen- 
tares, denominados conglomerados. A amostragem e feita a partir dos grupos e nao dos individuos da popula^ao. 
Desta forma, devemos sortear aleatoriamente um numero suficiente de conglomerados e os objetos deste consti- 
tuirao a amostra. Esse tipo de amostragem e denominado amostragem por conglomerados em um estagio. 

Segundo Bolfarine e Bussab (2005), uma das inconveniencias da amostragem por conglomerados esta no fato 
de que os elementos dentro de um mesmo conglomerado tendem a apresentar caracteristicas similares. Os auto- 
res demonstram que, quanto mais parecidos forem os elementos dentro do conglomerado, menos eficiente e o 
procedimento. Cada conglomerado deve ser um bom representante do universo, ou seja, deve ser heterogeneo, 
contendo todos os tipos de participantes. E o oposto da amostragem estratificada. 

De acordo com Martins e Domingues (2011), a amostragem por conglomerados e uma amostragem aleatoria 
simples em que as unidades amostrais sao os conglomerados, porem menos custosa. 

Quando sorteamos elementos dentro dos conglomerados selecionados, temos uma amostragem por con¬ 
glomerados em dois estagios: no primeiro estagio, sorteamos os conglomerados e, no segundo, sorteamos 
os elementos. O numero de elementos a serem sorteados depende da variabilidade dentro do conglomerado; 



Amostragem 177 


quanto maior for a variabilidade, mais elementos devem ser sorteados; por outro lado, quando as unidades dentro 
do conglomerado forem muito parecidas, nao e recomendavel e necessario o sorteio de todos os elementos, pois 
eles trarao o mesmo tipo de informa^ao (Bolfarine e Bussab, 2005). A amostragem por conglomerados pode ser 
generalizada para varios estagios. 

As principals vantagens que justificam a grande utiliza^ao da amostragem por conglomerados sao: a) muitas po¬ 
pulates ja estao agrupadas em subgrupos naturais ou geograficos, facilitando sua aplica£ao;b) permite uma redu- 
£ao substancial nos custos de obten^ao da amostra, sem comprometer sua precisao. Em resumo, e rapida, barata e 
eficiente. A unica desvantagem e que os conglomerados raramente sao do mesmo tamanho, dificultando o controle 
da amplitude da amostra. Entretanto, para contornar esse problema, recorreremos a determinadas tecnicas estatisticas. 

Como exemplos de conglomerados, podemos citar a produ^ao de uma fabrica dividida em linhas de mon- 

tagem, trabalhadores de uma empresa divididos por area, estudantes de um municipio divididos por escolas ou a 

popula^ao de um municipio dividida em distritos. 

Considere a seguinte notagao para a amostragem por conglomerados: 

N: tamanho da popula^ao; 

M: numero de conglomerados em que a popula^ao foi dividida; 

N { : tamanho do conglomerado i (i = 1, 2,..., M); 
n : tamanho da amostra; 

m: numero de conglomerados sorteados (m < M)\ 

n{. tamanho do conglomerado i da amostra (i = 1,2,..., m), tal que = N { ; 

h{. tamanho do conglomerado i da amostra (f = 1,2,..., m), tal que b { < n { . 


Em resumo, a amostragem por conglomerados em um estagio adota o seguinte procedimento: 


a) A popula^ao e dividida em Mconglomerados (Q,..., C M ) de tamanhos nao necessariamente iguais; 

b) Segundo um piano amostral, geralmente AAS, sorteamos m conglomerados (m < M); 


f 


c) Todos os elementos de cada conglomerado sorteado constituem a amostra global 


n-=N- e 


X”' =w 


V 


O calculo do numero de conglomerados (m) sera estudado na se^ao 6.4.4. 

Ja a amostragem por conglomerados em dois estagios opera da seguinte forma: 


a) 

b) 

c) 


A popula^o e dividida em Mconglomerados (C l5 ..., C M ) de tamanhos nao necessariamente iguais; 
Devemos sortear m conglomerados no primeiro estagio, segundo algum piano amostral, geralmente AAS; 
De cada conglomerado i sorteado de tamanho n h sorteamos b { elementos no segundo estagio, conforme o 

( 


mesmo ou outro piano amostral 


b , < n . e n = > b- 

l l 1 


V t=i J 

■ EXEMPLO 5 - AMOSTRAGEM POR CONGLOMERADOS EM UM ESTAGIO 


Considere uma popula^ao com N — 20 elementos, U — {1, 2, ..., 20}.A popula^ao e dividida em 7 conglo¬ 
merados: Q = {1, 2}, C 2 = {3, 4, 5}, C 3 = {6, 7, 8}, C 4 = {9,10,11}, C 5 = {12,13,14}, C 6 = {15,16}, C 7 = 
{17,18,19, 20}. O piano amostral adotado manda sortear tres conglomerados (m — 3) por amostragem aleatoria 
simples sem reposi^ao. Supondo que foram sorteados os conglomerados Q, C 3 e C 4 , determine o tamanho da 
amostra, alem dos elementos que constituirao a amostragem por conglomerados em um estagio. 


■ solu?ao 

Na amostragem por conglomerados em um estagio, todos os elementos de cada conglomerado sorteado 
constituem a amostra, de modo que M = {C l5 C 3 , C 4 } = {(1, 2), (6, 7, 8), (9,10,11)} = Portanto, n x = 2, n 2 - 3 

3 

e n 3 = 3, sendo n = ^ n { =8. 

■ EXEMPLO 6 - AMOSTRAGEM POR CONGLOMERADOS EM DOIS ESTAGIOS 

O Exemplo 5 sera estendido para o caso de amostragem por conglomerados em dois estagios. Assim, a partir 
dos conglomerados sorteados no primeiro estagio, o piano amostral adotado manda sortear um unico elemento 
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com igual probabilidade de cada conglomerado \b i = 1, i= 1, 2, 3 e n — 
sultado: V 

Estagio 1: M — {Q, C 3 , C 4 } = {(1,2), (6,7, 8), (9,10,11)} 

Estagio 2: M= {1,8,10} 

6.3. AMOSTRAGEM NAO PROBABILISTICA OU NAO ALEATORIA 

Nos metodos de amostragem nao probabilistica, as amostras sao obtidas de forma nao aleatoria, ou seja, a pro¬ 
babilidade de alguns ou de todos os elementos da popula^ao pertencerem a amostra e desconhecida. Assim, nao 
e possivel estimar o erro amostral e nem generalizar os resultados da amostra para a popula^ao, ja que aquela nao 
e representativa desta. 

Para Costa Neto (2002), este tipo de amostragem e muitas vezes empregado pela simplicidade ou impossibi- 
lidade de obtermos amostras probabilistic^, como seria desejavel. 

Devemos, portanto, ter cuidado ao optar pela utiliza^ao deste tipo de amostragem, uma vez que ela e subjeti- 
va, baseada nos criterios e julgamentos do pesquisador, e a variabilidade amostral nao pode ser estabelecida com 
precisao. 

Nesta se^ao, estudaremos as principals tecnicas de amostragem nao probabilistica ou nao aleatoria: (a) amos¬ 
tragem por conveniencia, (b) amostragem por julgamento ou intencional, (c) amostragem por quotas, (d) amos¬ 
tragem de propaga^ao geometrica ou bola de neve. 

6.3.1. Amostragem por conveniencia 

A amostragem por conveniencia e empregada quando a participa^ao e voluntaria ou os elementos da amostra 
sao escolhidos por uma questao de conveniencia ou simplicidade, por exemplo, amigos, vizinhos ou estudantes. 
A vantagem deste metodo e que ele permite obter informa^oes de maneira rapida e barata. 

Entretanto, o processo amostral nao garante que a amostra seja representativa da popula^ao, devendo ser em¬ 
pregado apenas em situates extremas e em casos especiais que justifiquem a sua utiliza^ao. 

■ EXEMPLO 7 - AMOSTRAGEM POR CONVENIENCIA 

Um pesquisador deseja estudar o comportamento do consumidor em rela^ao a determinada marca e, para is- 
so, desenvolve um piano de amostragem. A coleta de dados e feita por nieio de entrevistas com amigos, vizinhos 
e colegas de trabalho. Isto representa uma amostragem por conveniencia, uma vez que essa amostra nao e 
representativa da popula^ao. 

E importante ressaltar que, se a popula^ao for muito heterogenea, os resultados da amostra nao podem ser 
generalizados para essa populagao. 

6.3.2. Amostragem por julgamento ou intencional 

Na amostragem por julgamento ou intencional, a amostra e escolhida segundo a opiniao ou julgamento previo 
de um especialista. Seu risco e decorrente de um possivel equivoco por parte do pesquisador em seu prejulgamento. 
O emprego desse tipo de amostragem requer conhecimento da popula^ao e dos elementos selecionados. 

■ EXEMPLO 8 - AMOSTRAGEM POR JULGAMENTO OU INTENCIONAL 

Uma pesquisa busca identificar as razoes que levaram um grupo de trabalhadores de uma empresa a entrar em 
greve. Para isso, o pesquisador entrevista os principals lideres dos movimentos sindicais e politicos, bem como os 
trabalhadores sem qualquer envolvimento em movimentos dessa natureza. 

Como o tamanho da amostra e pequeno, nao e possivel generalizar os resultados para a popula^ao, ja que a 
amostra nao e representativa dessa popula^ao. 

6.3.3. Amostragem por quotas 

A amostragem por quotas apresenta maior rigor quando comparada as demais amostragens nao aleatorias. 
Para Martins e Domingues (2011), e um dos metodos de amostragem mais utilizados em pesquisas de mercado 
e de opiniao eleitoral. 


3 , o que resulta no seguinte re- 
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A amostragem por quotas e uma varia^ao da amostragem por julgamento. Inicialmente, fixamos as quotas 
com base em determinado criterio; dentro das quotas, a sele^ao dos itens da amostra depende do julgamento do 
entrevistador. A amostragem por quotas tambem pode ser considerada a versao nao probabilistica da amostragem 
estratificada. 

A amostragem por quotas consiste em tres passos: 

a) Selecionamos as variaveis de controle ou as caracteristicas da popula^ao consideradas relevantes para o es- 
tudo em questao; 

b) Determinamos a propor^ao da popula^ao (%) para cada uma das categorias das variaveis relevantes; 

c) Dimensionamos as quotas (numero de pessoas a serem entrevistadas que possuem as caracteristicas deter- 
minadas) para cada entrevistador, de modo que a amostra tenha propor^oes iguais a da popula^ao. 

As principais vantagens da amostragem por quotas sao o baixo custo, a rapidez e a conveniencia ou a facilidade 
para o entrevistador selecionar elementos. Porem, como a sele^ao dos elementos nao e aleatoria, nao ha garantia 
de que a amostra seja representativa da popula^ao, nao sendo possivel generalizar os resultados da pesquisa para 
a popula^ao. 

■ EXEMPLO 9 -AMOSTRAGEM POR QUOTAS 

Deseja-se realizar uma pesquisa de opiniao publica para as elei^oes de prefeito em determinado municipio 
com 14.253 eleitores. A pesquisa tern como objetivo identificar as inten^oes de votos por sexo e faixa etaria. 
ATabela 6.3 apresenta as frequencias absolutas para cada par de categorias das variaveis analisadas. Aplique a 
amostragem por quotas, considerando que o tamanho da amostra e de 200 eleitores e o numero de entrevis- 
tadores e 2. 


Tabela 6.3 Frequencias absolutas para cada par de categorias. 


Faixa etaria 

Masculino 

Feminino 

Total 

16 e 17 

50 

48 

98 

18 a 24 

1.097 

1.063 

2.160 

25 a 44 

3.409 

3.411 

6.820 

45 a 69 

2.269 

2.207 

4.476 

> 69 

359 

331 

690 

Total 

7.184 

7.060 

14.244 


■ SOLU^AO 

a) As variaveis relevantes para o estudo sao sexo e faixa etaria; 

b) A propor^ao da popula^ao (%) para cada par de categorias das variaveis analisadas esta detalhada naTabela 6.4. 


Tabela 6.4 Proporgao da popula^ao para cada par de categorias. 


Faixa etaria 

Masculino 

Feminino 

Total 

16 e 17 

0,35% 

0,34% 

0,69% 

18 a 24 

7,70% 

7,46% 

15,16% 

25 a 44 

23,93% 

23,95% 

47,88% 

45 a 69 

15,93% 

15,49% 

31,42% 

> 69 

2,52% 

2,32% 

4,84% 

% do Total 

50,44% 

49,56% 

100,00% 


c) Multiplicando cada celula da Tabela 6.4 pelo tamanho da amostra (200), obtemos o dimensionamento das 
quotas que compoem a amostra global, como mostra a Tabela 6.5. 
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Tabela 6.5 Dimensionamento das quotas. 


Faixa etaria 

Masculino 

Feminine* 

Total 

16 e 17 

1 

1 

2 

18 a 24 

16 

15 

31 

25 a 44 

48 

48 

96 

45 a 69 

32 

31 

63 

> 69 

5 

5 

10 

Total 

102 

100 

202 


Considerando que ha dois entrevistadores, a quota para cada um sera: 


Tabela 6.6 Dimensionamento das quotas por entrevistador. 


Faixa etaria 

Masculino 

Feminino 

Total 

16 e 17 

1 

1 

2 

18 a 24 

8 

8 

16 

25 a 44 

24 

24 

48 

45 a 69 

16 

16 

32 

> 69 

3 

3 

6 

Total 

52 

52 

104 


OBS.: Os dados dasTabelas 6.5 e 6.6 foram arredondados para cima, resultando num total de 202 eleitores na 
Tabela 6.5 e 104 eleitores na Tabela 6.6. 

63.4. Amostragem de propaga^ao geometrica ou bola de neve ( snowball) 

A amostragem de propaga^ao geometrica ou bola de neve e bastante utilizada quando os elementos da po- 
pula^ao sao raros, de dificil acesso ou desconhecidos. 

Neste metodo, devemos identificar um ou mais individuos da popula^ao-alvo, e estes identificarao outros in¬ 
dividuos pertencentes a mesma popula^ao. O processo e repetido ate que seja alcan^ado o objetivo proposto, ou 
ponto de satura^ao. O ponto de satura^ao e atingido quando os ultimos entrevistados nao acrescentam novas 
informa^oes relevantes a pesquisa, repetindo assim conteudos de entrevistas anteriores. 

Como vantagens, podemos listar: a) permite ao pesquisador localizar a caracteristica desejada da popula^ao; 
b) facilidade de aplica^ao, pois o recrutamento e feito por meio da indica^ao de outras pessoas pertencentes a 
popula^ao; c) baixo custo, pois necessita de menos planejamento e pessoas; d) e eficiente ao penetrar em popu¬ 
lates de dificil acesso. 

■ EXEMPLO 10 - AMOSTRAGEM POR BOLA DE NEVE 

Determinada empresa esta recrutando profissionais com um perfil especifico. O grupo contratado inicialmen- 
te indica outros profissionais com o mesmo perfil. O processo se repete ate que seja contratado o numero neces- 
sario de funcionarios.Temos, portanto, um exemplo de amostragem por bola de neve. 

6.4. TAMANHO DA AMOSTRA 

De acordo com Cabral (2006), existem seis fatores determinantes para o calculo do tamanho da amostra: 

1) Caracteristicas da popula^ao, como variancia (<7 2 ) e dimensao (N); 

2) Distribui^ao amostral do estimador utilizado; 

3) Precisao e confian^a requeridos nos resultados, sendo necessario especificar o erro de estima^ao (B) que e a 
maxima diferen^a que o investigador admite entre o parametro populacional e a estimativa obtida a partir 
da amostra; 

4) Custo: quanto maior o tamanho da amostra, maior sera o custo incorrido; 
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5) Custo versus erro amostral: devemos selecionar uma amostra de tamanho maior para reduzir o erro amos- 
tral ou devemos reduzir o tamanho da amostra a fim de minimizar os recursos e esfor^os incorridos, garan- 
tindo assim melhor controle dos entrevistadores, taxa de resposta mais alta e exata e melhor processamento 
das informa^oes? 

6) As tecnicas estatisticas que serao utilizadas: algumas tecnicas estatisticas exigem uma amostra de dimensao 
maior que outras. 

A amostra selecionada deve ser representativa da popula^ao. Com base em Ferrao et al. (2001),Bolfarine e Bussab 
(2005) e Martins e Domingues (2011), esta se^ao apresenta o calculo do tamanho da amostra para media (variavel 
quantitativa) e proporgao (variavel binaria) de populates finitas e infinitas, com erro maximo de estima^ao B e para 
cada tipo de amostragem aleatoria (simples, sistematica, estratificada e por conglomerados). 

No caso de amostras nao aleatorias, dimensionamos o tamanho da amostra com base em um eventual or^a- 
mento ou, entao, adotamos determinada dimensao ja utilizada com sucesso em estudos anteriores com as mesmas 
caracteristicas. Uma terceira alternativa seria calcular o tamanho de uma amostra aleatoria e utilizar tal dimensao 
como referenda. 

6.4.1. Tamanho da amostra aleatoria simples 

Esta segao apresenta o calculo do tamanho da amostra aleatoria simples para estimar media (variavel quantita¬ 
tiva) e propor^ao (variavel binaria) de populates finitas e infinitas, com erro maximo de estima^ao B. 

O erro de estima^ao (B) para a media e a maxima diferen^a que o investigador admite entre jJL (media popu- 
lacional) e X (media da amostra), isto e, B > | jl - X \. 

Ja o erro de estima^ao (B) para a propor^ao e a maxima diferen^a que o investigador admite entre p (propor- 
gao da popula^ao) e p (propor^ao da amostra), isto e, B > \p - p \. 

6.4.1.1. Tamanho da amostra para estimar a media de uma populaqao infinita 

Se a variavel escolhida for quantitativa e a populagao infinita, o tamanho de uma amostra aleatoria simples, tal 
que P( | X - jA | < B) = 1 — a, pode ser calculado como: 

a 2 

"'bV4 (6.5) 

em que: 

<7 2 : variancia populacional; 

B: erro maximo de estima^ao; 

z a : abscissa da distribui^ao normal padrao, fixado um nivel de significancia OC . 

De acordo com Bolfarine e Bussab (2005), para determinar o tamanho da amostra e preciso fixar o erro ma¬ 
ximo de estima^ao (B), o nivel de significancia (X (traduzido pelo valor tabelado z <*) e possuir algum conheci- 
mento a priori da variancia populacional (CJ 2 ). Os dois primeiros sao fixados pelo pesquisador, enquanto o terceiro 
exige mais trabalho. 

Quando nao conhecemos (T 2 , seu valor deve ser substituido por um estimador inicial razoavel. Em muitos 
casos, uma amostra piloto pode fornecer informa^ao suficiente sobre a popula^ao. Em outras situa^oes, pesquisas 
amostrais efetuadas anteriormente sobre a popula^ao tambem podem fornecer estimativas iniciais satisfatorias 
para <7 2 . Por fim, alguns autores sugerem o uso de um valor aproximado para o desvio-padrao, dado por ( 7= am¬ 
plitude / 4. 

6.4.1.2. Tamanho da amostra para estimar a media de uma populagao finita 

Se a variavel escolhida for quantitativa e a popula^ao finita, o tamanho de uma amostra aleatoria simples, tal 
que P( | X - fi | < B) = 1 - a, pode ser calculado como: 

N-(J 2 

“V,)4 + ^ 


( 6 . 6 ) 
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em que: 

N: tamanho da popula^ao; 

<7 2 : variancia populacional; 

B : erro maximo de estima^ao; 

z a : abscissa da distribui^ao normal padrao, fixado um nivel de significancia OC. 


6 A. 1 • 3 . Tamanho da amostra para estimar a proporgao de uma populagao infinita 

Se a variavel escolhida for binaria e a populagao infinita, o tamanho de uma amostra aleatoria simples, tal que 
P(\p — p\ < B) = 1 — OC, pode ser calculado como: 


n — 


PA 

B 2 /z 2 a 


em que: 

p: propor^ao da populagao que contem a caracteristica desejada; 
q = 1-p; 

B: erro maximo de estima^ao; 

z a : abscissa da distribui^ao normal padrao, fixado um mvel de significancia OC. 


(6.7) 


Na pratica, nao conhecemos o valor de p, e devemos, portanto, encontrar sua estimativa (p). Mas se esse valor 
tambem for desconhecido, devemos admitir que p = 0,50, obtendo assim um tamanho conservador, isto e, maior 
do que o necessario para garantir a precisao imposta. 


6A. 1A . Tamanho da amostra para estimar a proporgao de uma populagao finita 

Se a variavel escolhida for binaria e a popula^ao finita, o tamanho de uma amostra aleatoria simples, tal que 
P( \p — p | < B) — 1 - a, pode ser calculado como: 


n—~ 


N-p’q 


(N-l)~+p-q 


( 6 . 8 ) 


em que: 

N: tamanho da popula^ao; 

p: proporgao da populagao que contem a caracteristica desejada; 
q=l-p; 

B: erro maximo de estima^ao; 

z^. abscissa da distribui^ao normal padrao, fixado um nivel de significancia OC. 

M EXEMPLO 11 - CALCULO DO TAMANHO DA AMOSTRA ALEATORIA SIMPLES 

Considere a popula^ao de moradores de um condominio (N = 540). Deseja-se estimar a idade media dos 
condominos. Com base em pesquisas passadas, pode-se obter a estimativa para (T 2 de 463,32. Suponha que uma 
amostra aleatoria simples sera retirada da popula^ao. Admitindo que a diferen^a entre a media amostral e a verda- 
deira media populacional seja, no maximo, de 4 anos, com um nivel de confian^a de 95%, determine o tamanho 
da amostra a ser coletada. 


SOLUCAO 

O valor de para 0C= 5% (teste bilateral) e 1,96. O tamanho da amostra, a partir da expressao (6.6), e: 


N-cr 


n = 


540x463,32 


B 2 4 2 

(N-l)-—+CT 2 539X--+463,32 

1,96 2 


= 92,38 = 93 


Assim, se coletarmos uma amostra aleatoria simples de pelo menos 93 moradores da populapao, podemos 
inferir, com nivel de confianca de 95%, que a media amostral (X) diferira, no maximo, em 4 anos da verdadeira 
media populacional (jU). 
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■ EXEMPLO 12 - CALCULO DO TAMANHO DA AMOSTRA ALEATORIA SIMPLES 

Deseja-se estimar a propor^ao de eleitores insatisfeitos com o governo de determinado politico. Admite-se 
que a verdadeira propor^ao e desconhecida, assim como sua estimativa. Supondo que uma amostra aleatoria sim¬ 
ples sera retirada da popula^ao infinita e admitindo erro amostral de 2% e nivel de significancia de 5%, determine 
o tamanho da amostra. 

■ soLugAo 

Como nao conhecemos o verdadeiro valor de p, nem sua estimativa, vamos admitir que p — 0,50. Aplicando 
a expressao (6.7) para estimar a propo^ao de uma popula^ao infinita, temos que: 

p-q 0,5x0,5 ^ 

»=—tt= -o-^=2.401 

B 2 /z 2 a 0,02 2 /l,96 2 

Portanto, entrevistando aleatoriamente 2.401 eleitores, podemos inferir sobre a verdadeira propor^ao de elei¬ 
tores insatisfeitos, com erro maximo de estima^ao de 2% e nivel de confian^a de 95%. 

6.4.2. Tamanho da amostra sistematica 

Na amostragem sistematica, vamos utilizar as mesmas expressoes da amostragem aleatoria simples (conforme es- 
tudado na se^ao 6.4.1), de acordo com o tipo de variavel (quantitativa ou qualitativa) e popula^ao (infinita ou finita). 

6.4.3. Tamanho da amostra estratificada 

Esta se^ao apresenta o calculo do tamanho da amostra estratificada para estimar media (variavel quantitativa) 
e propor^ao (variavel binaria) de popula9oes finitas e infinitas, com erro maximo de estima^ao B. 

O erro de estima^ao ( B ) para a media e a maxima diferen^a que o investigador admite entre /I (media popu- 
lacional) e X (media da amostra), isto e, B > \{Ji- X\. 

Ja o erro de estima^ao (B) para a proporgao e a maxima diferen^a que o investigador admite entre p (propor- 
£ao da popula^ao) e p (propor^ao da amostra), isto e, B > \p — p |. 

Utilizaremos a seguinte nota^ao para o calculo do tamanho da amostra estratificada, conforme segue: 

k : numero de estratos; 

Nf tamanho do estrato i,i= 1,2,..., k; 

N = N x + N 2 + ... + N k (tamanho da popula^ao); k 

W { ~ N { / N (peso ou propor^ao do estrato i, com pp; =i); 

Jl l { : media populacional do estrato i; i=i 

(ff. variancia populacional do estrato i; 

nf numero de elementos selecionados aleatoriamente do estrato /; 
n = n x + n 2 + ... + n k (tamanho da amostra); 

Xf media amostral do estrato /; 

S 2 f variancia amostral do estrato i; 

pf propor^ao de elementos que possui a caracteristica desejada no estrato i; 

<li = 1 - Pi- 

6.4.3. 1. Tamanho da amostra estratificada para estimar a media de uma populagao infinita 

Se a variavel escolhida for quantitativa e a popula^ao infinita, o tamanho da amostra estratificada, tal que P( | X 
— jl | < B) = 1 — a, pode ser calculado como: 

n=— - 

B 2 /z 2 a (6.9) 

em que: fe 

W { — / N (peso ou propor^ao do estrato i, com =l)’ 

(ff variancia populacional do estrato i; i=1 

B: erro maximo de estima^ao; 

z a : abscissa da distribui^ao normal padrao, fixado um nivel de significancia a. 
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6.43.2. Tamanho da amostra estratificada para estimar a media de uma populagao finita 

Se a variavel escolhida for quantitativa e a populagao finita, o tamanho da amostra estratificada, tal que P( | X 
— | < B) = 1 — a, pode ser calculado como: 

ix- o ]/ w { 

_ 1=1 


( 6 . 10 ) 

em que: 

N } : tamanho do estrato i, i — 1, 2 ,..., k; 

0 variancia populacional do estrato i; k 

W { = N { / N (peso ou proporgao do estrato i, com =1); 

N: tamanho da populagao; »=i 

B: erro maximo de estimagao; 

z a : abscissa da distribuigao normal padrao, fixado um mvel de significancia OL. 


2 B 2 k 

n 2 -—+ 

z a i=l 




6.433. Tamanho da amostra estratificada para estimar a proporgao de uma populagao infinita 

Se a variavel escolhida for binaria e a populagao infinita, o tamanho da amostra estratificada, tal que P( \p — p | 
< B) = 1 — a, pode ser calculado como: 


IXiv* 

i=i_ 


( 6 . 11 ) 


em que: k 

W { — N { / N (peso ou proporgao do estrato i, com = l); 

^ . i= i 

p t : proporgao de elementos que possui a caracteristica desejada no estrato i; 

4 . = 1 -Pb 

B: erro maximo de estimagao; 

z a : abscissa da distribuigao normal padrao, fixado um mvel de significancia OC . 


6.43.4. Tamanho da amostra estratificada para estimar a proporgao de uma populagao finita 

Se a variavel escolhida for binaria e a populagao finita, o tamanho de uma amostra estratificada, tal que P( | p 
— p | < B) = 1 — OC, pode ser calculado como: 

k 

^Nf-p rq ,/W, 

■ »= '^2 - - 

N 2 -—+ y £N i -p r q i ( 6 . 12 ) 

z a w 


em que: 

N(. tamanho do estrato i,i = 1,2,..., fe; 

p(. proporgao de elementos que possui a caracteristica desejada no estrato i\ 

<li = 1 “ Pb k 

W { — N { / N (peso ou proporgao do estrato /, com ^ W { =l)> 

N: tamanho da populagao; 1=1 

B: erro maximo de estimagao; 

z a : abscissa da distribuigao normal padrao, fixado um mvel de significancia a. 
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■ EXEMPLO 13 - CALCULO DO TAMANHO DA AMOSTRA ESTRATIFICADA 

Uma universidade possui 11.886 alunos matriculados em 14 cursos de graduagao, divididos em tres grandes 
areas: Exatas, Humanas e Biologicas. A Tabela 6.7 apresenta o numero de alunos matriculados por area. Uma pes- 
quisa sera realizada a fim de estimar o tempo medio de estudo semanal dos alunos (em horas). Com base em amos- 
tras piloto, obtem-se as seguintes estimativas para as variancias nas areas de Exatas, Humanas e Biologicas: 124,36, 
153,22 e 99,87, respectivamente. As amostras selecionadas devem ser proporcionais ao numero de alunos por area. 
Determine o tamanho da amostra, considerando erro de estimagao de 0,8 e nivel de confianga de 95%. 


Tabela 6.7 Alunos matriculados por area. 


Area 

Alunos matriculados 

Exatas 

5.285 

Humanas 

3.877 

Biologicas 

2.724 

Total 

11.886 


SOLU^AO 

Pelos dados do enunciado, temos que: 

k=3, N t =5.285, N 2 =3.877, N 3 =2.724, N = 11.886, £ = 0,8 


5.285 =Q44 w 3-8 ZZ. .=o 33 W = ? ■— 4 =0,23 
11.886 11.886 3 11.886 

Para OC — 5%, temos que z a — 1,96. Com base na amostra piloto, devemos utilizar as estimativas para d\, e 
< 73 . O tamanho da amostra e calculado a partir da expressao ( 6 . 10 ): 


n — - 




2 k 


~a i =1 


^5.285 2 X 124,36 3.877 2 Xl53,22 2.724 2 x 99,87^ 

-+- 1 —+- 


n =- 


V 


0,44 


0,33 


0,23 


0 8 

11, 886 2 X — + (5.285 X 124,36+3.877 X 153,22+2.724 X 99,87) 


-=722,52=723 


1,96 


Como a amostragem e proporcional, podemos obter o tamanho de cada estrato pela expressao = W { X n 
(f = 1,2,3): 

n l =W 1 Xn= 0,44 X 723 = 321,48 = 322 
n 2 = W 2 X n = 0,33 X 723 = 235,83 = 236 
n 3 =W 3 Xw = 0,23x723 = 165,70 = 166 


Assim, para realizar a pesquisa, devemos selecionar 322 alunos da area de Exatas, 236 de Humanas e 166 de 
Biologicas. A partir da amostra selecionada, podemos inferir, com nivel de confian^a de 95%, que a diferenga en- 
tre a media amostral e a verdadeira media populacional sera de, no maximo, 0,8 horas. 


■ EXEMPLO 14 - CALCULO DO TAMANHO DA AMOSTRA ESTRATIFICADA 

Considere a mesma popula^ao do exemplo anterior, porem, o objetivo agora e estimar, para cada area, a pro- 
porgao de alunos que trabalham. Com base em uma amostra piloto, tem-se as seguintes estimativas por area :p x = 
0,3 (Exatas), p 2 = 0,6 (Humanas) e p 3 = 0,4 (Biologicas). O tipo de amostragem utilizada nesse caso e uniforme. 
Determine o tamanho da amostra, considerando erro de estimagao de 3% e nivel de confianga de 90%. 
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■ SOLU^AO 

Como nao conhecemos o verdadeiro valor de p para cada area, utilizamos sua estimativa. Para nivel de con- 
fianga de 90%, temos que z a = 1,645. Aplicando a expressao (6.12) da amostragem estradficada para estimar a 
propor^ao de uma popula^ao finita, temos que: 

k 

" = . ” , » - 

N 2 -—+^ N i- Prqi 
z cc ,'= 1 

5.285 2 xO,3 x 0,7/0,44 + 3.877 2 x 0,6 x 0,4/0,33 + 2.724 2 x 0,4 x 0,6/0,23 

n= - 5 --- 

11,886 2 X Q,Q3 -- +5.285X0,3X0,7 + 3.877X0,6 X0,4+2.724x0,4 x0,6 
1,645 2 

n=644,54=645 

Como a amostragem e uniforme, temos que n x — n 2 = n 3 = 215. 

Portanto, para realizar a pesquisa, devemos selecionar aleatoriamente 215 alunos de cada area. A partir da 
amostra selecionada, podemos inferir, com nivel de confian^a de 90%, que a diferen^a entre a propor^ao amostral 
e a verdadeira propor^ao populacional sera de, no maximo, 3%. 


6.4.4. Tamanho da amostra por conglomerados 

Esta segao apresenta o calculo do tamanho da amostra por conglomerados em um unico estagio e em dois 
estagios. 

Consideremos a seguinte nota^ao para o calculo do tamanho da amostra por conglomerados: 

N: tamanho da populagao; 

M: numero de conglomerados em que a popula^ao foi dividida; 

N { : tamanho do conglomerado i, i — 1,2,..., M; 
n : tamanho da amostra; 

m: numero de conglomerados sorteados (m < M); 

rtf. tamanho do conglomerado i da amostra sorteada no primeiro estagio {i — 1, 2,..., m), tal que n { = N { ; 
b x \ tamanho do conglomerado i da amostra sorteada no segundo estagio (i — 1, 2,..., m), tal que b { < n t ; 

N — N / M (tamanho medio dos conglomerados da popula^ao); 
n = n / m (tamanho medio dos conglomerados da amostra); 

Xyij-e sima observagao no conglomerado i; 

(f dc : variancia populacional dentro dos conglomerados; 

(f ec : variancia populacional entre conglomerados; 

&i: variancia populacional dentro do conglomerado i; 
fli = media populacional dentro do conglomerado i\ 
cf c = (Jjc + (f ec (variancia populacional total). 


Segundo Bolfarine e Bussab (2005), o calculo de (f dc e O 2 ^ e dado por: 



2 1 ^ 2 1 v'N, 2 

c =—> N -fi) =— 

ec N~ M ~ N 

1=1 


M 


(6.13) 


(6.14) 


Supondo que todos os conglomerados tem tamanhos iguais, as expressoes anteriores resumem-se a: 
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M 


al=- 


M 




1=1 


(6.15) 

(6.16) 


6.4.4.1. Tamanho da amostra por conglomerados em um estagio 

Esta segao apresenta o calculo do tamanho da amostra por conglomerados em um estagio para estimar a me¬ 
dia (variavel quantitativa) de uma populagao finita e infinita, com erro maximo de estimagao B. 

O erro de estimagao (B) para a media e a maxima diferenga que o investigador admite entre jU (media popu- 
lacional) e X (media da amostra), isto e, B > | jJL - X \. 


6.4.4.1.1. Tamanho da amostra para estimar a media de uma populagao infinita 


Se a variavel escolhida for quantitativa e a populagao infinita, o numero de conglomerados sorteados no pri- 
meiro estagio (m), tal que P(\X— /I\ < B) - 1 — a, pode ser calculado como: 



em que: 

(J* c = (f dc + (f eo conforme expressoes (6.13) a (6.16); 

B: erro maximo de estimagao; 

z a : abscissa da distribuigao normal padrao, fixado um nivel de significancia a. 

Se os conglomerados forem de tamanhos iguais, Bolfarine e Bussab (2005) demonstram que: 


(6.17) 



(6.18) 


Segundo os autores, em geral, O 2 C e desconhecido e tern que ser estimado a partir de amostras piloto ou obtido 
a partir de pesquisas amostrais anteriores. 


6.4.4.1.2. Tamanho da amostra para estimar a media de uma populagao finita 

Se a variavel escolhida for quantitativa e a populagao finita, o numero de conglomerados sorteados no pri- 
meiro estagio (m), tal que P( | X— fl\ < B) = 1 — a, pode ser calculado como: 


M-a 2 


m- 


M- 


B 2 -iV 2 


+ O' 2 


em que: 

M: numero de conglomerados em que a populagao foi dividida; 

(f c = d] c + (f ec , conforme expressoes (6.13) a (6.16); 

B: erro maximo de estimagao; 

N = N / M (tamanho medio dos conglomerados da populagao); 

z a : abscissa da distribuigao normal padrao, fixado um nivel de significancia a . 


(6.19) 


6.4.4.I.3. Tamanho da amostra para estimar a proporgao de uma populagao infinita 

Se a variavel escolhida for binaria e a populagao infinita, o numero de conglomerados sorteados no primeiro 
estagio (m), tal que P(\p — p | < B) = 1 — CT, pode ser calculado como: 

M XT 

m— -—- 

B 2 /z\ (6.20) 


em que: 
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M: numero de conglomerados em que a popula^ao foi dividida; 

N { : tamanho do conglomerado i,i= 1,2,M; 

N = N / M (tamanho medio dos conglomerados da popula^ao); 

Pi : propor^ao de elementos que possui a caracteristica desejada no conglomerado i; 

4, = 1 ~Pil 

B : erro maximo de estima^ao; 

z a : abscissa da distribui^ao normal padrao, fixado um nivel de significancia a. 


6.4.4.1.4. Tamanho da amostra para estimar a propor^ao de uma popula^ao finita 

Se a variavel escolhida for binaria e a popula^ao finita, o numero de conglomerados sorteados no primeiro 
estagio (m), tal que P(\p- p\ < B) = 1 - a, pode ser calculado como: 


m — - 


f N, 


b 2 -n 2 


M 


_ M. 

M -T- + 


em que: 

M: numero de conglomerados em que a popula^ao foi dividida; 

Nf. tamanho do conglomerado i,i= 1,2,M; 

N = N / M (tamanho medio dos conglomerados da popula^ao); 

p-. propor^ao de elementos que possui a caracteristica desejada no conglomerado i; 

ii = 1 “Pb 

B: erro maximo de estima^ao; 

z a : abscissa da distribui^ao normal padrao, fixado um nivel de significancia a. 


( 6 . 21 ) 


6.4A.2. Tamanho da amostra por conglomerados em dois estdgios 

Nesse caso, supomos que todos os conglomerados tern o mesmo tamanho. Com base em Bolfarine e Bussab 
(2005), consideremos a seguinte fun^ao de custo linear: 

C = c t • n + c 2 • b (6.22) 

em que: 

c x : custo de observa^ao de uma unidade do primeiro estagio; 
c 2 \ custo de observa^ao de uma unidade do segundo estagio; 
n : tamanho da amostra no primeiro estagio; 
b : tamanho da amostra no segundo estagio. 

O tamanho otimo de b que minimiza a fun^ao de custo linear e dado por: 

b* =^- P- 

C ec \ C 2 (6.23) 


■ EXEMPLO 15 - CALCULO DO TAMANHO DA AMOSTRA POR CONGLOMERADOS 

Considere a popula^ao de socios de determinado clube paulista (N = 4.500). Deseja-se estimar a nota media 
(0 a 10) de avalia^ao dos socios em rela^ao aos principais atributos que o clube oferece. A popula^ao e dividida 
em 10 grupos de 450 elementos, com base no registro de identifica^ao de cada socio. A estimativa da media e 
variancia populacional por grupo, a partir de pesquisas anteriores, consta naTabela 6.8. Supondo que a amostra- 
gem por conglomerados e baseada em um unico estagio, determine o numero de conglomerados que deve ser 
sorteado, considerando e B = 2% e 0C= 1%. 


Tabela 6.8 Media e variancia populacional por grupo. 


i 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

A 

7,4 

6,6 

8,1 

7,0 

6,7 

7,3 

8,1 

7,5 

6,2 

6,9 

0 / 

22,5 

36,7 

29,6 

33,1 

40,8 

51,7 

39,7 

30,6 

40,5 

42,7 
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SOLU^AO 

A partir dos dados do enunciado, temos que: 

N = 4.500, M = 10, N = 4.500/10 = 450, B = 0,02 e^ a =2,575. 

Como todos os conglomerados tern tamanhos iguais, o calculo de e C^ ec e dado por: 


1 M 


1=1 

M 


22,5 + 36,7 4-h 42,7 

10 


= 36,79 


= (7.4-7. 18 r + ... + (6.9-7, 1 8r = 

M " ' 10 

1=1 

Logo, <^ = 0^ + 0^ = 36,79+0,35=37,14 

O numero de conglomerados a serem sorteados em um estagio, para uma populagao finita, e dado pela ex- 
pressao (6.19): 

M-a 2 10x37,14 


m=- 


M- 


B 2 -N 2 


+ 0 2 lOx 


0,02 2 x 450 2 
2,575 2 


= 2,33=3 


+ 37,14 


Portanto,apopulagao de N= 4.500 socios e dividida emM = 10 conglomerados de tamanhos iguais (N t = 450, 
i— 1, ... 10). Do total de conglomerados, devemos sortear aleatoriamente m — 3 conglomerados. No caso da 
amostragem por conglomerados em um unico estagio, todos os elementos de cada conglomerado sorteado cons- 
tituem a amostra global (n — 450 x 3 = 1.350). 

A partir da amostra selecionada, podemos inferir, com nivel de confianga de 99%, que a diferenga entre a me¬ 
dia amostral e a verdadeira media populacional sera de, no maximo, 2%. 

O Quadro 6.1 apresenta a sintese das expressoes utilizadas no calculo do tamanho da amostra para a media 
(variavel quantitativa) e a proporgao (variavel binaria) de populates finitas e infinitas, com erro maximo de estima- 
fao B, para cada tipo de amostragem aleatoria (simples, sistematica, estratificada e por conglomerados). 


Quadro 6.1 Expressoes para o calculo do tamanho das amostras aleatorias. 


Tipo de amostra 
aleatoria 

Estima^ao de 
media (popula^ao 
infmita) 

Estima^ao de media 
(popula^ao finita) 

Estima£ao de 
propor^ao 
(popula^ao infinita) 

Estima^ao de propor^ao 
(popula^ao finita) 

Simples 

CT 2 

n ~B 2 /4 

N-a 2 

» = 2 
(N-1)A+ct 2 

n= P ' q 

N-p-q 

tl 2 

(N-l)~+p-q 

Z a 

Sistematica 

a 2 

n ~B 2 /zl 

N-a 2 

« = 2 
(N-iy^+a 2 

^ a 

n= 

B 2 / Z a 

N-p-q 

ft 2 

(N-l)~+p-q 

z a 

Estratificada 

^JVi-d 2 

H ~ B 2 /z 2 a 

j^Nf-af/W, 

k 

n= 1 1 2 / 

B 2 / z a 

k 

11- 1=1 

H ~ 2 k 

N 2 - -j- + 'S\N i - of 

t! 

R 2 * 

N 2 -—+^N i -p i -q i 

z a i= 1 

Por 

conglomerados 
(em um estagio) 


M-a 2 

nt— - 

„„ B 2 -N 2 2 

M- +a 2 

z a 

*5* 

• CN $ 

11 

s 

i 

m ~B 2 jz\ 

,, B 2 -N 2 v N i 

z a i= 1 
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6.5. CONSIDERA0ES FINAIS 

Raramente e possivel obtermos a distribui^ao exata de uma variavel ao selecionarmos todos os elementos da 
popula^ao, devido ao alto custo, ao tempo despendido e as dificuldades de levantamento de dados. Desta forma, a 
alternativa e selecionarmos parte dos elementos da popula^ao (amostra) e, a partir dela, inferirmos propriedades 
para o todo (popula^ao). Como a amostra deve ser representativa da popula^ao, a escolha da tecnica de amostra- 
gem e fundamental neste processo. 

As tecnicas de amostragem podem ser classificadas em dois grandes grupos: amostragem probabilistica ou ale¬ 
atoria e amostragem nao probabilistica ou nao aleatoria. Dentre as principais tecnicas de amostragem aleatoria, 
destacamos: amostragem aleatoria simples (com e sem reposi^ao), sistematica, estratificada e por conglomerados. 
As principais tecnicas de amostragem nao aleatorias sao: amostragem por conveniencia, por julgamento ou in- 
tencional, por quotas e bola de neve. Cada uma das tecnicas apresenta vantagens e desvantagens, e a escolha da 
mais adequada deve levar em considera^ao as caracteristicas de cada estudo. 

Este capitulo tambem apresentou o calculo do tamanho da amostra para estimar a media e a propor^ao de 
populates infinitas e finitas,para cada tipo de amostragem aleatoria. Ja para a defini^ao do tamanho de amostras 
nao aleatorias, o pesquisador deve basear-se em um eventual or^amento e ate mesmo partir de uma dimensao ja 
utilizada com sucesso em estudos anteriores com caracteristicas similares. Outra alternativa seria calcular o tama¬ 
nho de uma amostra aleatoria e te-la como referenda. 

6.6. EXERCICIOS 

1) Qual a importancia da amostragem? 

2) Quais as diferen^as entre as tecnicas de amostragem aleatoria e nao aleatoria? Em que casos elas devem ser 
utilizadas? 

3) Qual a diferen^a entre a amostragem estratificada e por conglomerados? 

4) Quais as vantagens e limita^oes de cada tecnica de amostragem? 

5) Qual tipo de amostragem e utilizado no sorteio da Mega Sena? 

6 ) Para verificar se uma pe$a atende a determinadas especifica^oes de qualidade, a cada lote de 150 pe^as pro- 
duzidas, retira-se uma unidade ao acaso e inspecionam-se todas as caracteristicas de qualidade. Qual o tipo de 
amostragem utilizada nesse caso? 

7) Suponha que a popula^ao do municipio de Porto Alegre esteja dividida por nivel de escolaridade. Assim, para 
cada faixa, sera entrevistada uma porcentagem da popula^ao. Qual o tipo de amostragem utilizada nesse caso? 

8 ) Em uma linha de produ^ao, um lote de 1.500 pe^as e produzido a cada hora. De cada lote, retira-se ao acaso 
uma amostra de 125 unidades. Em cada unidade da amostra, inspecionam-se todas as caracteristicas de qualidade 
para verificar se a pe$a e defeituosa ou nao. Qual o tipo de amostragem utilizada nesse caso? 

9) A popula^ao do municipio de Sao Paulo esta dividida em 96 distritos. Desse total, serao sorteados aleatoria- 
mente 24 distritos e, para cada um deles, sera entrevistada uma pequena amostra da popula^ao, em uma pesquisa 
de opiniao publica. Qual o tipo de amostragem utilizada? 

10) Deseja-se estimar a taxa de analfabetismo em um municipio com 4 mil habitantes com 15 anos ou mais. 
Com base em pesquisas passadas, estima-se que p — 0,24. Uma amostra aleatoria sera retirada da popula^ao. 
Supondo erro maximo de estima^ao de 5% e nivel de confian^a de 95%, qual deve ser o tamanho da amostra? 

11) A popula^ao de determinado municipio com 120 mil habitantes esta dividida em cinco regioes (Norte, Sul, 
Centro, Leste e Oeste). ATabela 6.9 apresenta o numero de habitantes por regiao. Uma amostra aleatoria sera co- 
letada em cada regiao a fim de estimar a idade media dos habitantes. As amostras selecionadas devem ser propor- 
cionais ao numero de habitantes por regiao. Com base em amostras piloto, obtem-se as seguintes estimativas para 
as variancias nas cinco regioes: 44,5 (Norte), 59,3 (Sul), 82,4 (Centro), 66,2 (Leste) e 69,5 (Oeste). Determine o 
tamanho da amostra, considerando erro de estima^ao de 0,6 e nivel de confian^a de 99%. 
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Tabela 6.9 Numero de habitantes por regiao. 


Regiao 

Habitantes 

Norte 

14.060 

Sul 

19.477 

Centro 

36.564 

Leste 

26.424 

Oeste 

23.475 


12) Considere um municipio com 120 mil habitantes. Deseja-se estimar a porcentagem da popula^ao que vive 
em areas urbanas e rurais. O piano de amostragem utilizado divide o municipio em 85 distritos de tamanhos 
diferentes. Do total de distritos, deseja-se selecionar parte deles e, para cada distrito sorteado, serao selecionados 
todos os habitantes. O arquivo Distritos.xls apresenta o tamanho de cada distrito, assim como a porcentagem 
estimada da popula^ao urbana e rural. Supondo erro maximo de estimagao de 10% e nivel de confian^a de 90%, 
determine o total de distritos a serem sorteados. 





CAPITULO 


Testes de Hipoteses 


Devemos investigor e oceitor os resultados . Se nao resistem a estes testes, 

ate as palavras de Buda devem ser rejeitadas. 

Dalai Lama 


Ao final deste capitulo, voce sera capaz de: 

• Compreender como os testes de hipoteses estao inseridos na estatistica inferencial. 

• Conceituar os testes de hipoteses e seus objetivos, assim como o procedimento para sua construgao. 

• Classificar os testes de hipoteses como parametricos e nao parametricos, e definir os conceitos e 
suposigoes dos testes parametricos (os testes nao parametricos serao estudados no proximo capitulo). 

• Estabelecer as vantagens e desvantagens dos testes parametricos. 

• Estudar os principais tipos de testes de hipoteses parametricos. 

• Compreender as suposigoes inerentes a cada urn dos testes parametricos. 

• Saber quando utilizar cada urn dos testes parametricos. 

• Elaborar cada teste por meio do IBM SPSS Statistics Software® e do Stata Statistical Software® 

• Interpretar os resultados obtidos. 


7.1. INTRODUgAO 

Conforme apresentamos anteriormente, um dos problemas a serem resolvidos pela inference estatistica e o de 
testar hipoteses. Uma hipotese estatistica e uma suposigao sobre determinado parametro da populagao, como 
media, desvio-padrao, coeficiente de correlagao, etc. Um teste de hipotese e um procedimento para decisao 
sobre a veracidade ou falsidade de determinada hipotese. Para que uma hipotese estatistica seja validada ou rejei- 
tada com certeza, seria necessario examinarmos toda a populagao, o que na pratica e inviavel. Como alternativa, 
extraimos uma amostra aleatoria da populagao de interesse. Como a decisao e tomada com base na amostra, po- 
dem ocorrer erros (rejeitar uma hipotese quando ela for verdadeira ou nao rejeitar uma hipotese quando ela for 
falsa), como sera visto mais adiante. 

O procedimento e os conceitos necessarios para a construgao de um teste de hipotese serao apresentados a 
seguir.Vamos considerar X uma variavel associada a uma populagao e 0 determinado parametro dessa populagao. 

Devemos definir a hipotese a ser testada sobre o parametro 6 dessa populagao, que e chamada de hipotese nula: 

H 0 : d-d 0 (7.1) 

Definiremos tambem a hipotese alternativa (H^, caso H 0 seja rejeitada, que pode ser caracterizada da seguin- 
te forma: 

0 0 (7.2) 

e o teste e chamado de teste bilateral (ou bicaudal). 

O nivel de significance (a) de um teste representa a probabilidade de rejeitar a hipotese nula quando ela for 
verdadeira (e um dos dois tipos de erros que podem ocorrer, conforme veremos a seguir). A regiao critica (RC) 
de um teste bilateral e representada por duas caudas de tamanhos iguais, respectivamente na extremidade esquerda 
e direita da curva de distribuigao, e cada uma delas corresponde a metade do nivel de significance OC, conforme 
mostra a Figura 7.1. 
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Figura 7.1 Regiao critica (RC) de um teste bilateral, com destaque tambem para a regiao de nao rejei^ao da hipotese nula (RN). 
Outra forma de definir a hipotese alternativa (hf) seria: 

H 1 :d<6 0 (7.3) 

e o teste e chamado unilateral (ou unicaudal) a esquerda. 

Nesse caso, a regiao critica esta na cauda esquerda da distribui^ao e corresponde ao nivel de significancia a, 
como mostra a Figura 7.2. 



Figura 7.2 Regiao critica (RC) de um teste unilateral a esquerda, com destaque tambem para a regiao de nao rejei$ao da 

hipotese nula (RN). 

Ou ainda, a hipotese alternativa poderia ser: 

^#>00 (7.4) 

e o teste e chamado unilateral (ou unicaudal) a direta. Nesse caso, a regiao critica esta na cauda direita da 
distribui^ao e corresponde ao nivel de significancia CC , como mostra a Figura 7.3. 


a 


V_ J 

Figura 7.3 Regiao critica (RC) de um teste unilateral a direita, com destaque tambem para a regiao de nao rejei^ao da 

hipotese nula (RN). 

Assim, quando o objetivo for verificar se um parametro e significativamente superior ou inferior a determi- 
nado valor, utilizamos um teste unilateral. Por outro lado, se o objetivo for verificar se um parametro e diferente 
de determinado valor, utilizamos o teste bilateral. 

Definida a hipotese nula a ser testada, por meio de uma amostra aleatoria coletada na popula^ao, compro- 
vamos ou nao tal hipotese. Como a decisao e tomada com base na amostra, dois tipos de erros podem ocorrer: 

Erro do tipo I: rejeitar a hipotese nula quando ela for verdadeira. A probabilidade desse tipo de erro e repre- 
sentada por CC: 



P(erro do tipo I) = P(rejeitar H 0 | H 0 e verdadeira) = CC 


(7.5) 
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Erro do tipo II: nao rejeitar a hipotese nula quando ela for falsa. A probabilidade desse tipo de erro e represen- 
tada por /3: 

P(erro do tipo II) = P(nao rejeitar H 0 | H 0 e falsa) = (3 (7.6) 

O Quadro 7.1 apresenta os tipos de erros que podem ocorrer em um teste de hipotese. 


Quadro 7.1 Tipos de erros. 


Decisao 

H 0 e verdadeira 

H 0 e falsa 

Nao rejeitar H 0 

Decisao correta (1 - a) 

Erro do tipo II (/?) 

Rejeitar H 0 

Erro do tipo I (a) 

Decisao correta (1 - (5) 


O procedimento para a constru^ao dos testes de hipoteses envolve as seguintes etapas: 

Passo 1: Escolher o teste estatistico adequado, dado o intuito do pesquisador. 

Passo 2: Apresentar a hipotese nula H 0 e a hipotese alternativa H a do teste. 

Passo 3: Fixar o nivel de significance a. 

Passo 4: Calcular o valor observado da estatistica do teste com base na amostra extraida da popula^ao. 

Passo 5: Determinar a regiao critica do teste em fun^ao do valor de a fixado no passo 3. 

Passo 6: Decidir - se o valor da estatistica pertencer a regiao critica, rejeitar H 0 ; caso contrario, nao rejeitar H 0 

Segundo Favero et al (2009), a maioria dos softwares estatisticos, entre eles o SPSS, calcula o P-value (P-valor 
ou valor-P) que corresponde a probabilidade associada ao valor da estatistica do teste calculado a partir da amos¬ 
tra. O P-value indica o menor nivel de significance observado que levaria a rejei^ao da hipotese nula. Assim, re- 
jeitamos H 0 se P < OC. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 da constru^ao dos testes de hi¬ 
poteses serao: 

Passo 5: Determinar o P-value que corresponde a probabilidade associada ao valor da estatistica do teste calcu¬ 
lado no passo 4. 

Passo 6: Decidir — se o valor de P-value for menor do que o nivel de significance (X estabelecido no passo 3, 
rejeitar H 0 ; caso contrario, nao rejeitar H 0 . 

7.2. TESTES PARAMETRICOS 

Os testes de hipoteses dividem-se em parametricos e nao parametricos. Neste capitulo, estudaremos apenas os 
testes parametricos. Os testes nao parametricos serao estudados no proximo capitulo. 

Os testes parametricos envolvem parametros populacionais. Um parametro e qualquer medida numerica ou 
caracteristica quantitativa que descreve a popula^ao; sao valores fixos, usualmente desconhecidos e representados 
por caracteres gregos, como a media populacional (JLL), o desvio-padrao populacional (o), a variancia populacio- 
nal (cr 2 ), etc. 

Quando as hipoteses forem formuladas sobre os parametros da popula^ao, o teste de hipotese e chamado pa- 
rametrico. Nos testes nao parametricos, as hipoteses sao formuladas sobre caracteristicas qualitativas da popular ao. 

Os metodos parametricos sao entao aplicados para dados quantitativos e exigem suposi^oes fortes para sua 
valida^ao, incluindo: 

i) as observa^oes devem ser independentes; 

«) a amostra deve ser retirada de populates com determinada distribui^ao, geralmente a normal; 

iii) as populates devem ter variancias iguais para testes de compara^ao de duas medias populacionais empa- 
relhadas ou k medias populacionais (k > 3); 

iv) as variaveis em estudo devem ser medidas em escala intervalar ou de razao, do modo que seja possivel uti- 
lizar opera^oes aritmeticas sobre os respectivos valores. 
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Estudaremos os principals testes parametricos, incluindo testes de normalidade, testes de homogeneidade de 
variancias, teste t de Student e suas aplica^oes, alem da ANOVA e suas extensoes.Todos eles serao resolvidos de 
forma analitica e tambem por meio dos softwares estatisticos SPSS e Stata. 

Para verificar a normalidade univariada dos dados, os testes mais utilizados sao os de Kolmogorov-Smirnov, de 
Shapiro-Wilk e de Shapiro-Francia. Para a compara^ao da homogeneidade de variancias entre populates, temos 
os testes X 2 de Bartlett (1937), C de Cochran (1947), F mix de Hartley (1950) e F de Levene (1960). 

Descreveremos o teste t de Student para tres situates: testar hipoteses sobre uma media populacional, testar 
hipoteses para comparar duas medias independentes e para comparar duas medias emparelhadas. 

A Analise deVariancia (ANOVA) e uma extensao do teste t de Student e e utilizada para comparar medias de 
mais de duas populates. Neste capitulo, serao descritas a ANOVA de um fator, a ANOVA de dois fatores e a sua 
extensao para mais de dois fatores. 

73. TESTES PARA NORMALIDADE UNIVARIADA 

Dentre os testes de normalidade univariada, os mais utilizados sao: Kolmogorov-Smirnov, Shapiro-Wilk e 
Shapiro-Francia. 

7.3.1. Teste de Kolmogorov-Smirnov 

O teste de Kolmogorov-Smirnov (K-S) e um teste de aderencia, isto e, compara a distribui^ao de frequences 
acumuladas de um conjunto de valores amostrais (valores observados) com uma distribui^ao teorica. O objeti- 
vo e testar se os valores amostrais sao oriundos de uma popula^ao com suposta distribui^ao teorica ou esperada, 
neste caso a distribui^ao normal. A estatistica do teste e o ponto de maior diferen^a (em valor absoluto) entre as 
duas distributes. 

Para utiliza^ao do teste de K-S, a media e o desvio-padrao da popula^ao devem ser conhecidos. Para pequenas 
amostras, o teste perde potencia, de modo que deve ser utilizado em amostras grandes (n > 30). 

O teste de K-S assume as seguintes hipoteses: 

H 0 : a amostra provem de uma popula^ao com distribui^ao N (JLL 9 &) 

H t : a amostra nao provem de uma popula^ao com distribui^ao N (jLL,d) 

Conforme especificado em Favero et al. (2009), seja F esp (X) uma fun^ao de distribui^ao esperada (normal) de 
frequences relativas acumuladas da variavel X, em que F esp (X) ~ N(jtX, O), e F obs (X) a distribui^ao de frequencias 
relativas acumuladas observada da variavel X. O objetivo e testar se F ohs (X) = F esp (X ), contra a alternativa de que 
F obs (X) * F esp (X). 

A estatistica do teste e: 

D a i = max{ | F esp (XD — F obs {X^ |; \F esp (X} ~ I IP*™ * = 1,»• (7-7) 

em que: 

F esp (Xy. frequencia relativa acumulada esperada na categoria i ; 

F ohs (X t ) : frequencia relativa acumulada observada na categoria i; 

F obs (X i _ 1 ): frequencia relativa acumulada observada na categoria i — 1. 

Os valores criticos da estatistica de Kolmogorov-Smirnov (D c ) estao na Tabela G do apendice do livro. Essa 
tabela fornece os valores criticos de D c tal que P (D cal > D) = a (para um teste unilateral a direita). Para que a hi- 
potese nula H 0 seja rejeitada, o valor da estatistica D cal deve pertencer a regiao critica, isto e, D cd > D c ; caso con- 
trario, nao rejeitamos H 0 . 

O P-value (probabilidade associada ao valor da estatistica calculada D cal a partir da amostra) tambem pode ser 
obtido da Tabela G. Nesse caso, rejeitamos H 0 se P < CL. 

M EXEMPLO 1 - APLICA^AO DO TESTE DE KOLMOGOROV-SMIRNOV 

A Tabela 7.1 apresenta os dados de produ^ao mensal de maquinas agricolas de uma empresa nos ultimos 36 
meses. Verifique se os dados da Tabela 7.1 sao provenientes de uma popula^ao com distribui^ao normal, consi- 
derando CL — 5%. 
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Tabela 7.1 Produ^ao de maquinas agricolas nos ultimos 36 meses. 


52 

50 

44 

50 

42 

30 

36 

34 

48 

40 

55 

40 

30 

36 

40 

42 

55 

44 

38 

42 

40 

38 

52 

44 

52 

34 

38 

44 

48 

36 

36 

55 

50 

34 

44 

42 


■ SOLU^AO 

Passo 1: Como o objetivo e verificar se os dados da Tabela 7.1 sao provenientes de uma popula^ao com distri- 
bui^ao normal, o teste indicado e o de Kolmogorov-Smirnov (K-S). 

Passo 2: As hipoteses do teste de K-S para este exemplo sao: 

H 0 : a produgao de maquinas agricolas na popula^ao segue distribui^ao N (JLL, (f) 

Hp a produ^ao de maquinas agricolas na popula^ao nao segue distribui^ao N (JJ,, G) 

Passo 3: O nivel de significance a ser considerado e de 5%. 

Passo 4:Todos os passos necessarios para o calculo de D cd a partir da expressao (7.7) estao especificados na 
Tabela 7.2. 


Tabela 7.2 Calculo da estatistica de Kolmogorov-Smirnov. 


X, 


bp 

x ac 

c Frac ois 


e Frac esp 

|F ap (X i )-F„ fo (X)l 

|F esy (X i )-F ofe (X i - 1 )l 

30 

2 

2 

0,056 

-1,7801 

0,0375 

0,018 

0,036 

34 

3 

5 

0,139 

-1,2168 

0,1118 

0,027 

0,056 

36 

4 

9 

0,250 

-0,9351 

0,1743 

0,076 

0,035 

38 

3 

12 

0,333 

-0,6534 

0,2567 

0,077 

0,007 

40 

4 

16 

0,444 

-0,3717 

0,3551 

0,089 

0,022 

42 

4 

20 

0,556 

-0,0900 

0,4641 

0,092 

0,020 

44 

5 

25 

0,694 

0,1917 

0,5760 

0,118 

0,020 

48 

2 

27 

0,750 

0,7551 

0,7749 

0,025 

0,081 

50 

3 

30 

0,833 

1,0368 

0,8501 

0,017 

0,100 

52 

3 

33 

0,917 

1,3185 

0,9064 

0,010 

0,073 

55 

3 

36 | 

1 

1,7410 

0,9592 

0,041 

0,043 


a Frequencia absoluta. 
b Frequencia (absoluta) acumulada. 

c Frequencia relativa acumulada observada de X { . X —^X 

d Valores padronizados de X, de acordo com a expressao Z =—l -. 

' s 

e Frequencia relativa acumulada esperada de X, e corresponde a probabilidade obtida na Tabela E do apendice do livro (tabela de distribui^ao 
normal padrao) a partir do valor de Z t . 

O valor real da estatistica de K-S com base na amostra e, entao, D cd = 0,118. 

Passo 5: De acordo com a Tabela G do apendice do livro, para n = 36 e OC = 5%, o valor critico da estatistica de 
Kolmogorov-Smirnov eD c = 0,23. 

Passo 6: Decisao - como o valor calculado nao pertence a regiao critica (D cd < D c ), a hipotese nula nao e rejei- 
tada, o que nos permite concluir, ao nivel de confian^a de 95%, que a amostra e obtida de uma popula^ao com 
distribui^ao normal. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com a Tabela G do apendice do livro, para uma amostra de tamanho n — 36, a probabilidade 
associada a estatistica D cd = 0,118 tern como limite inferior P = 0,20. 

Passo 6: Decisao — como P > 0,05, nao rejeitamos H 0 . 
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7.3.2. Teste de Shapiro-Wilk 

O teste de Shapiro-Wilk (S-W) e baseado em Shapiro e Wilk (1965) e pode ser aplicado para amostras de 
tamanho 4 <n< 2.000, sendo uma alternativa ao teste de normalidade de Kolmogorov-Smirnov (K-S) no caso 
de pequenas amostras (n < 30). 

Analogamente ao teste de K-S, o teste de normalidade de S-W assume as seguintes hipoteses: 

H 0 : a amostra provem de uma popula^ao com distribui^ao N (JLL, (f) 
a amostra nao provem de uma popula^ao com distribui^ao N (jl,d) 

O calculo da estatistica de Shapiro-Wilk (W cd ) e dado por: 


W r 


cal * 


n , . 


, para i = 1 


i=i 


(7.8) 


e 

tt/2 

b ='L^Ax {n - M) -x, ) 

i=i 

em que: 

Xq sao as estatisticas de ordem i da amostra, ou seja, a z-esima observa^ao ordenada, de modo que X (1) < X (2) 

^ .. 

X e a media de X; 

a i n sao constantes geradas das medias, variancias e covariancias das estatisticas de ordem de uma amostra aleatoria 
de tamanho n a partir de uma distribui^ao normal. Seus valores sao apresentados naTabela H 2 do apendice do livro. 

Pequenos valores de W cai indicam que a distribui^ao da variavel em estudo nao e normal. Os valores crfticos 
da estatistica de Shapiro-Wilk (W c ) estao naTabela Hj do apendice do livro. Diferente da maioria das tabelas, essa 
tabela fornece os valores criticos de W c tal que P (W^ < WJ = CL (para um teste unilateral a esquerda). Para que 
a hipotese nula H 0 seja rejeitada, o valor da estatistica W cal deve pertencer a regiao critica, isto e, W cal < W c ; caso 
contrario, nao rejeitamos H 0 . 

O P-value (probabilidade associada ao valor da estatistica calculada W cai a partir da amostra) tambem pode ser 
obtido da Tabela Nesse caso, rejeitamos H 0 se P < a. 


(7.9) 


■ EXEMPLO 2 - APLiCA^AO DO TESTE DE SHAPIRO-WILK 

A Tabela 7.3 apresenta os dados de produ^ao mensal de avioes de uma empresa aeroespacial nos ultimos 24 
meses.Verifique se os dados da Tabela 7.3 sao provenientes de uma popula^ao com distribui^ao normal, consi- 
derando a = 1%. 


Tabela 7.3 Produ^ao de avioes nos ultimos 24 meses. 


28 

32 

46 

24 

22 

18 

20 

34 

30 

24 

31 

29 

15 

19 

23 

25 

28 

30 

32 

36 

39 

16 

23 

36 


■ SOLU^AO 

Passo 1: Para um teste de normalidade em que n < 30, o teste indicado e o de Shapiro-Wilk (S-W). 

Passo 2: As hipoteses do teste de S-W para este exemplo sao: 

H 0 : a produ^ao de avioes na popula^ao segue distribui^ao normal N (jU,ti) 

H a : a produ^ao de avioes na popula^ao nao segue distribui^ao normal N(jU, O) 

Passo 3: O nivel de significancia a ser considerado e de 1%. 

Passo 4: O calculo da estatistica de S-W para os dados da Tabela 7.3, de acordo com as expressoes (7.8) e (7.9), 
esta detalhado a seguir. 
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Inicialmente, para o calculo de b, devemos classificar os valores daTabela 7.3 em ordem crescente, como mos- 
tra aTabela 7.4. 


Tabela 7.4 Valores daTabela 7.3 classificados em ordem crescente. 
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16 

18 

19 
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23 

23 

24 

24 

25 

28 

28 

29 

30 

30 

31 

32 

32 

34 

36 

36 

39 

46 


O procedimento completo para o calculo de b , a partir da expressao (7.9), esta especificado naTabela 7.5. Os 
valores de a i n foram obtidos da Tabela H 2 do apendice do livro. 


Tabela 7.5 Procedimento para o calculo de b. 


i 

fi-i+1 

a i,n 

^(rt-t+i) 

Xo 

a i,n (^(n-i+1) “ ^(t)) 

1 

24 

0,4493 

46 

15 

13,9283 

2 

23 

0,3098 

39 

16 

7,1254 

3 

22 

0,2554 

36 

18 

4,5972 

4 

21 

0,2145 

36 

19 

3,6465 

5 

20 

0,1807 

34 

20 

2,5298 

6 

19 

0,1512 

32 

22 

1,5120 

7 

18 

0,1245 

32 

23 

1,1205 

8 

17 

0,0997 

31 

23 

0,7976 

9 

16 

0,0764 

30 

24 

0,4584 

10 

15 

0,0539 

30 

24 

0,3234 

11 

14 

0,0321 

29 

25 

0,1284 

12 

13 

0,0107 

28 

28 

0,0000 






b = 36,1675 


n / _v 

Temos que ^(x,-Xf =(28-27,5) 2 +---+(36-27,5) 2 =1.388 
b 2 _ (36,1675) 2 


1=1 


Logo, W Ml = 


Xfc-x ) 2 


—v 1.338 


- = 0,978 


1=1 

Passo 5: De acordo com aTabela H a do apendice do livro, para n — 24 e (X — 1%, o valor critico da estatistica 
de Shapiro-Wilk e W c = 0,884. 


Passo 6: Decisao - a hipotese nula nao e rejeitada,ja que W cd > W c (aTabela H x fornece os valores criticos de 
W c tal que tal que P(W cal < W c ) = OC),o que nos permite concluir, ao nivel de confian^a de 99%, que a amostra 
e obtida de uma popula^ao com distribui^ao normal. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 


Passo 5: De acordo com aTabela do apendice do livro, para uma amostra de tamanho n = 24, a probabilida- 
de associada a estatistica — 0,978 ( P-value) esta entre 0,50 e 0,90 (uma probabilidade de 0,90 esta associada 
ao valor W M i = 0,981. 


Passo 6: Decisao - como P > 0,01, nao rejeitamos H 0 . 


7.3.3. Teste de Shapiro-Francia 

Este teste e baseado em Shapiro e Francia (1972). De acordo com Sarkadi (1975), os testes de Shapiro-Wilk 
(S-W) e Shapiro-Francia (S-F) tern a mesma forma, sendo diferentes apenas na defini^ao dos coeficientes. Alem 
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disso, o calculo do teste de S-F e muito mais simples, podendo ser considerado uma versao simplificada do teste 
de S-W. Apesar da simplicidade, e tao robusto quanto o teste de Shapiro-Wilk, tornando-se um substitute de S-W 
O teste de Shapiro-Francia pode ser aplicado para amostras de tamanho 5 < n < 5.000, sendo similar ao teste 
de Shapiro-Wilk para grandes amostras. 

Analogamente ao teste de S-W, o teste de S-F assume as seguintes hipoteses: 

H 0 : a amostra provem de uma popula^ao com distribui^ao N (jLL,(f) 

H a : a amostra nao provem de uma popula^ao com distribui^ao N (JLL, d) 

O calculo da estatistica de Shapiro-Francia (W' ca !) e dado por: 



n 

2 / 

n n 



II 

Z w ." X (o 

_ i- 1 

/ 

_ 1=1 1=1 

, para i— 1, 

..., n 


(7.10) 


em que: 

Xq sao as estatisticas de ordem i da amostra, ou seja, a /-esima observa^ao ordenada, de modo que < X^ 2 ) 
m { e o valor esperado aproximado da /-esima observa^ao ( Zscore ). Os valores de sao aproximados por: 


m, 




-l 


yn + \j 


(7.11) 


em que <J> _1 corresponde ao inverso da distribui^ao normal padrao com media zero e desvio-padrao 1. Esses va¬ 
lores podem ser extraidos da tabela E do apendice do livro. 

Pequenos valores de W\ aX indicam que a distribui^ao da variavel em estudo nao e normal. Os valores criticos 
da estatistica de Shapiro-Francia W\ estao na Tabela H x do apendice do livro. Diferente da maioria das tabelas, 
essa tabela fornece os valores criticos de W\ tal que P( W[ at < W[) = CC (para um teste unilateral a esquerda). Para 
que a hipotese nula H 0 seja rejeitada, o valor da estatistica W\ aX deve pertencer a regiao critica, isto e, W\ ai < W\; 
caso contrario, nao rejeitamos H 0 . 

O P-value (probabilidade associada ao valor da estatistica calculada W[ ai a partir da amostra) tambem pode ser 
obtido da Tabela H l . Nesse caso, rejeitamos H 0 se P < CL. 


M EXEMPLO 3 - APLICA^AO DO TESTE DE SHAPIRO-FRANCIA 

A Tabela 7.6 apresenta os dados de produ^ao diaria de bicicletas de determinada empresa nos ultimos 60 dias. 
Verifique se os dados sao provenientes de uma popula^ao com distribui^ao normal, considerando CL — 5%. 


Tabela 7.6 Produ^ao de bicicletas nos ultimos 60 dias. 
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m solu^ao 

Passo 1: A normalidade dos dados pode ser verificada pelo teste de Shapiro-Francia. 

Passo 2: As hipoteses do teste de S-F para este exemplo sao: 

H 0 : a produ^ao de bicicletas na popula^ao segue distribui^ao normal N (jl, Cf) 

H t : a produ^ao de bicicletas na popula^ao nao segue distribui^ao normal N(/i, d) 
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Passo 3: O nivel de significance a ser considerado e de 5%. 

Passo 4: O procedimento para o calculo da estatistica de S-F,para os dados daTabela 7.6, esta detalhado naTabela 7.7. 


Tabela 7.7 Procedimento para o calculo da estatistica de Shapiro-Francia. 


i 

X(0 

i / (n+ 1) 

m, 

m f X (l) 

m, 2 

(X f - X) 2 

1 

49 

0,0164 

-2,1347 

-104,5995 

4,5569 

481,8025 

2 

54 

0,0328 

-1,8413 

-99,4316 

3,3905 

287,3025 

3 

54 

0,0492 

-1,6529 

-89,2541 

2,7319 

287,3025 

4 

55 

0,0656 

-1,5096 

-83,0276 

2,2789 

254,4025 

5 

57 

0,0820 

-1,3920 

-79,3417 

1,9376 

194,6025 

6 

57 

0,0984 

-1,2909 

-73,5841 

1,6665 

194,6025 

7 

59 

0,1148 

-1,2016 

-70,8960 

1,4439 

142,8025 

8 

59 

0,1311 

-1,1210 

-66,1380 

1,2566 

142,8025 


60 

93 

0,9836 

2,1347 

198,5256 

4,5569 

486,2025 




Soma 

574,6704 

53,1904 

6.278,8500 


Logo, W'ad = (574,6704) 2 /(53,1904 x 6.278,8500) = 0,989. 

Passo 5: De acordo com a Tabela H t do apendice do livro, para n = 60 e CC = 5%, o valor critico da estatistica 
de Shapiro-Francia e W\ — 0,9625. 

Passo 6: Decisao — a hipotese nula nao e rejeitada,ja que W\ ai > W[ (aTabela H t fornece os valores criticos de 
W\ tal que P(W /, ca/ < W'J = a), o que nos permite concluir, ao nivel de confian^a de 95%, que a amostra e ob- 
tida de uma popula^ao com distribui^ao normal. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com a Tabela H t do apendice do livro, para uma amostra de tamanho n — 60, a probabilidade 
associada a estatistica W\ ai = 0,989 ( P-value) e maior do que 0,10. 

Passo 6: Decisao - como P > 0,05, nao rejeitamos H 0 . 

73.4. Resolu^ao dos testes de normalidade por meio do software SPSS 

Os testes de normalidade de Kolmogorov-Smirnov e Shapiro-Wilk podem ser elaborados por meio IBM 
SPSS Statistics Software®. Ja o teste de Shapiro-Francia sera elaborado por meio do software Stata, como vere- 
mos na proxima se^ao. 

Com base no procedimento que sera descrito a seguir, o SPSS apresenta os resultados dos testes de K-S e de 
S-W para a amostra selecionada. A reprodu^ao das imagens nesta se^ao tern autoriza^ao da International Business 
Machines Corporation®. 

Consideremos os dados do Exemplo 1 que estao disponiveis no arquivo Produ 9 ao_MaquinasAgrfcolas. 
sav.Vamos abrir o arquivo e selecionar o menu Analyze —> Descriptive Statistics —> Explore..., como mos- 
tra a Figura 7.4. 





Figura 7.5 Sele<;ao da variavel de interesse. 
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Figura 7.6 Selegao do teste de normalidade no SPSS. 

Os resultados dos testes de normalidade de Kolmogorov-Smirnov e Shapiro-Wilk, para os dados do Exemplo 
1, estao na Figura 7.7. 


Tests of Normality 



Kolmogorov-Smirnov 3 

Shapiro-Wilk 

Statistic 

df 

Sig. 

Statistic 

df 

Sig. 

Produgao 

,118 

36 

,200* 

,957 

36 

,167 


a. Lilliefors Significance Correction 

*. This is a lower bound of the true significance. 

Figura 7.7 Resultados dos testes de normalidade para o Exemplo 1 no SPSS. 


De acordo com a Figura 7.7, o resultado da estatistica de K-S foi de 0,118, semelhante ao valor calculado no 
Exemplo 1. Como a amostra possui mais de 30 elementos, devemos utilizar apenas o teste de K-S para verificagao 
da normalidade dos dados (o teste de S-W foi aplicado para o Exemplo 2). De qualquer forma, o SPSS tambem 
disponibiliza o resultado da estatistica de S-W para a amostra selecionada. 

Conforme apresentado na introdugao deste capitulo, o SPSS calcula o P-value que corresponde ao menor nivel 
de significance observado que levaria a rejeigao da hipotese nula. Para os testes de K-S e S-W, respectivamente, o 
P-value corresponde ao menor valor de P a partir do qual D cal > D c e W cai < W r Conforme mostra a Figura 7.7, 
o valor de P para o teste de K-S foi de 0,200 (essa probabilidade tambem pode ser extraida daTabela G do apen- 
dice do livro, conforme apresentado no Exemplo 1). Como P > 0,05 , nao rejeitamos a hipotese nula, o que nos 
permite concluir, ao nivel de confianga de 95%, que a distribuigao dos dados e normal. O teste de S-W tambem 
permite concluir que a distribuigao dos dados apresenta aderencia a distribuigao normal. 

Aplicando o mesmo procedimento para verificagao da normalidade dos dados do Exemplo 2 (os dados estao 
dispomveis no arquivo Produgao_Avioes.sav), obtemos os resultados da Figura 7.8. 


Tests of Normality 



Kolmogorov-Smirnov 3 

Shapiro-Wilk 

Statistic 

df 

Sig. 

Statistic 

df 

Sig. 

Produgao 

,094 

24 

,200* 

,978 

24 

,857 


a. Lilliefors Significance Correction 

*. This is a lower bound of the true significance. 

Figura 7.8 Resultados dos testes de normalidade para o Exemplo 2 no SPSS. 
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Analogamente ao Exemplo 2, o resultado do teste de S-W foi 0,978.0 teste de K-S nao foi aplicado para este 
exemplo em fun^ao do tamanho da amostra (n < 30). O P-value do teste de S-W e 0,857 (vimos no Exemplo 2 
que essa probabilidade estaria entre 0,50 e 0,90, e proxima de 0,90) e, como P > 0,01, a hipotese nula nao e re- 
jeitada, o que permite concluir que a distribui^ao dos dados na popula^ao segue a distribui^ao normal. Faremos 
uso deste teste na estima^ao de modelos de regressao, no Capitulo 12. 

A partir do teste de K-S, tambem podemos concluir, para este exemplo, que a distribui^ao dos dados e ade- 
rente a distribui^ao normal. 

7.3.5. Resolu^ao dos testes de normalidade por meio do software Stata 

Os testes de normalidade de Kolmogorov-Smirnov, Shapiro-Wilk e Shapiro-Francia podem ser elaborados 
por meio do Stata Statistical Software®. O teste de Kolmogorov-Smirnov sera aplicado para o Exemplo 1, o teste 
de Shapiro-Wilk para o Exemplo 2 e o teste de Shapiro-Francia para o Exemplo 3. A reprodu^ao das imagens 
apresentadas nesta se^ao tern autoriza^ao da StataCorp LP®. 

Teste de Kolmogorov-Smirnov por meio do software Stata 

Os dados do Exemplo 1 estao disponiveis no arquivo Produ£ao_MaquinasAgricolas.dta.Vamos abrir esse 
arquivo e verificar que o nome da variavel em estudo e produgao. 

Para a elabora^ao do teste de Kolmogorov-Smirnov pelo Stata, devemos especificar a media e o desvio-padrao 
da variavel de interesse na sintaxe do teste, de modo que o comando summarize, ou simplesmente sum, deve ser 
digitado inicialmente, seguido pela respectiva variavel: 

sum produ^ao 

e obtemos a Figura 7.9. Podemos verificar, portanto, que a media e 42,63889 e o desvio-padrao e 7,099911. 


. sum produgao 






Variable | 

Obs 

Mean 

Std. Dev. 

Min 

Max 

produgao | 

36 

42.63889 

7.099911 

30 

55 


Figura 7.9 Estatfsticas descritlvas da variavel produqao. 


O teste de Kolmogorov-Smirnov e dado pelo seguinte comando: 

ksmirnov produgao = normal((produ$ao-42.63889)/7.099911) 

O resultado obtido encontra-se na Figura 7.10. Podemos verificar que o valor da estatistica do teste e seme- 
lhante ao calculado no Exemplo 1 e pelo software SPSS. Como P > 0,05, concluimos que a distribui^ao dos 
dados e normal. 


. ksmirnov produ<?ao=normal (( produgao-42.63889) /7.099911) 

One-sample Kolmogorov-Smirnov test against theoretical distribution 
normal(( produgao-42.63889)/7.099911) 

Smaller group D P-value Corrected 

produgao: 0.1184 0.364 

Cumulative: -0.1001 0.486 

Combined K-S: 0.1184 0.694 0.622 

Note: ties exist in dataset; 

there are 11 unique values out of 36 observations. _ 

Figura 7.10 Resultados do teste de Kolmogorov-Smirnov para o Exemplo 1 no Stata. 

Teste de Shapiro-Wilk por meio do software Stata 

Os dados do Exemplo 2 estao disponiveis no arquivo Produ£ao_Avioes.dta. Para a elabora^ao do teste de 
Shapiro-Wilk pelo Stata, a sintaxe do comando e: 

swilk variaveis* 
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em que o termo variaveis* deve ser substituido pela lista de variaveis consideradas. Para os dados do Exemplo 2, 
temos uma unica variavel, denominada produgao , de modo que o comando a ser digitado e: 

swilk produgao 

O resultado do teste de Shapiro-Wilk esta ilustrado na Figura 7.11. Como P > 0,05, concluimos que a amos- 
tra provem de uma popula^ao com distribui^ao normal. 


. swilk produgao 







Shapiro-Wilk W 

test for normal 

data 


Variable | 

Obs 

W 

V 

z 

Prob>z 

produgao | 

24 

0.98017 

0.535 -1, 

.276 

0.89900 


Figura 7.11 Resultados do teste de Shapiro-Wilk para o Exemplo 2 no Stata. 


Faremos uso desse teste na estima^ao de modelos de regressao, no Capitulo 12. 

Teste de Shapiro-Francia por meio do software Stata 

Os dados do Exemplo 3 estao dispomveis no arquivo Produ£ao_Bicicletas.dta. Para a elabora^ao do teste 
de Shapiro-Francia pelo Stata, a sintaxe do comando e: 

sfrancia variaveis* 

em que o termo variaveis* deve ser substituido pela lista de variaveis consideradas. Para os dados do Exemplo 
3, temos uma unica variavel, denominada produgao , de modo que o comando a ser digitado e: 

sfrancia produgao 

O resultado do teste de Shapiro-Francia esta na Figura 7.12. Podemos verificar que o valor e semelhante ao 
calculado no Exemplo 3 (W 1 = 0,989). Como P > 0,05, concluimos que a amostra provem de uma popula^ao 
com distribui^ao normal. 


1 . sfrancia produgao 





Shapiro- 

Francia W' 

test for 

normal data 

Variable | 

Obs 

W' 

V' 

z Prob>z 

produgao | 

60 0 

.98922 

0.649 

-0.828 0.79618 


Figura 7.12 Resultados do teste de Shapiro-Francia para o Exemplo 3 no Stata. 


Tambem faremos uso desse teste na estima^ao de modelos de regressao, no Capitulo 12. 

7.4. TESTES PARA HOMOGENEIDADE DE VARlANCIAS 

Uma das condi^oes para se aplicar um teste parametrico para compara^ao de k medias populacionais e que as 
variancias das populates, estimadas a partir de k amostras representativas, sejam homogeneas ou iguais. Os testes 
mais utilizados para verifica^ao da homogeneidade de variancias sao os testes X 2 de Bartlett (1937), C de Cochran 
(1947), F m .de Hartley (1950) e F de Levene (1960). 

Na hipotese nula dos testes de homogeneidade de variancia, as variancias das k populates sao homogeneas. 
Na hipotese alternativa, pelo menos uma variancia populacional e diferente das demais. Ou seja: 

H 0 :<7 1 = °2 = ”' = <7 i 

Hi ij :<jf ^(7^ (i,j = \,k) (7-12) 

7.4.1. Tester 2 de Bartlett 

O teste original proposto para verificar a homogeneidade de variancias entre grupos e o teste X 2 de Bartlett 
(1937). Esse teste e muito sensivel aos desvios de normalidade, sendo o teste de Levene uma alternativa nesse caso. 
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A estatistica de Bartlett e ealculada a partir de q: 

q = (N-k)- ln(s p 2 )-^(«,-l)-ln(sf) 

1=1 

em que: k 

n h i - 1,.. k, e o tamanho de cada amostra i, de mo do que =N; 

S 2 -, i— 1,..., fe, e a variancia em cada amostra i; *-i 


(7.13) 


c 2 — _ 


X(«ri)-s , 2 


JV-fe 


Um fator de corre^ao c e aplicado a estatistica com a seguinte expressao: 

f k . \ 


= 1 + - 


1 


3-(fe-l) 


X 

V <=1 


1 


1 


•1 N-fe 


(7.14) 


(7.15) 
1 


de modo que a estatistica de Bartlett ( B cal ) segue aproximadamente uma distribui^ao qui-quadrado com k 
graus de liberdade, ou seja: 

b m ;=7 ~ Xk-i (7.16) 

Pelas expressoes anteriores, verificamos que, quanto maior a diferen^a entre as variancias, maior tambem sera 
o valor de B. Por outro lado, se todas as variancias amostrais forem iguais, seu valor sera zero. Para confirmar se a 
hipotese nula de homogeneidade de variancias sera ou nao rejeitada, o valor calculado deve ser comparado com 
o valor critico da estatistica (jfy que esta disponivel na Tabela D do apendice do livro. 

Essa tabela fornece os valores criticos de % 2 C tal que P($ ca i > jfy = OC (para um teste unilateral a direita). Assim, 
rejeitamos a hipotese nula se B cal > Por outro lado, se B cal <f c , nao rejeitamos H 0 . 

O P-value (probabilidade associada a estatistica % 2 cal ) tambem pode ser obtido a partir da Tabela D. Nesse caso, 
rejeitamos H 0 se P < CL. 


■ EXEMPLO 4 - APLICA?AO DO TESTE X 2 DE BARTLETT 

Um supermercadista deseja estudar o numero de clientes atendidos diariamente para tomar decisoes estrategi- 
cas de opera^oes. A Tabela 7.8 apresenta os dados de tres lojas ao longo de duas semanas.Verifique se as variancias 
entre os grupos sao homogeneas. Considere OC = 5%. 


Tabela 7.8 Numero de clientes atendidos por dia e por loja. 



Loja 1 

Loja 2 

Loja 3 

Dia 1 

620 

710 

924 

Dia 2 

630 

780 

695 

Dia 3 

610 

810 

854 

Dia 4 

650 

755 

802 

Dia 5 

585 

699 

931 

Dia 6 

590 

680 

924 

Dia 7 

630 

710 

847 

Dia 8 

644 

850 

800 

Dia 9 

595 

844 

769 

Dia 10 

603 

730 

863 

Dia 11 

570 

645 

901 

Dia 12 

605 

688 

888 

Dia 13 

622 

718 

757 

Dia 14 

578 

702 

712 

Desvio-padrao 

24,4059 

62,2466 

78,9144 

Variancia 

595,6484 

3.874,6429 

6.227,4780 
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■ SOLU^AO 

Se aplicarmos o teste de normalidade de Kolmogorov-Smirnov ou de Shapiro-Wilk aos dados daTabela 7.8, 
verificaremos que a distribui^ao dos mesmos apresenta aderencia a normalidade, ao nivel de significancia de 5%, de 
modo que o teste X 2 de Bartlett pode ser aplicado para comparar a homogeneidade de variancias entre os grupos. 


Passo 1: Como o objetivo e comparar a igualdade de variancias entre os grupos, podemos utilizar o teste X 2 de 
Bartlett. 


Passo 2: As hipoteses do teste X 2 de Bartlett, para este exemplo, sao: 

H 0 : a variancias populacionais dos 3 grupos sao homogeneas 

a variancias populacionais de pelo menos um grupos e diferente das demais 


Passo 3: O nivel de significancia a ser considerado e de 5%. 


Passo 4: O calculo completo da estatistica X 2 de Bartlett esta detalhado a seguir. Inicialmente, calculamos o valor 
de S 2 p , de acordo com a expressao (7.14): 


S 2 = 13-(595,65+ 3.874,64+ 6.227,48) = 3 565 ^ 
p 42-3 * ’ 


Assim, podemos calcular q por meio da expressao (7.13), de modo que: 

q = 39 • ln(3.565,92) - 13 • [ln(595,65) + ln(3.874,64) + ln(6.227,48)] = 14,94 
O fator de corre^ao c da estatistica q e calculado a partir da expressao (7.15): 


c= 1 + 


1 ^ 

•3- 

f 1 

1 ' 

( 3 • (3 — 1) J 

v 13~ 

42-3 J 


= 1,0256 


Por fim, calculamos B cal : 


B«/=- = 


q 14,94 


1,0256 


= 14,567 


Passo 5: De acordo com aTabela D do apendice do livro, para V = 3 — 1 graus de liberdade e OC = 5%, o valor 
critico do teste ^ de Bartlett e jfc = 5,991. 

Passo 6: Decisao - como o valor calculado pertence a regiao critica (B cal > yfy, a hipotese nula e rejeitada, o que 
nos permite concluir, ao nivel de confian^a de 95%, que a variancia populacional de pelo menos um grupo e 
diferente das demais. 


Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com aTabela D do apendice do livro, para V—2 graus de liberdade, a probabilidade associa- 
da a estatistica ^ cai = 14,567 ( P-value ) e inferior a 0,005 (uma probabilidade de 0,005 esta associada a estatistica 
^,= 10,597). 


Passo 6: Decisao - como P < 0,05, rejeitamos H 0 . 

7.4.2. Teste C de Cochran 

O teste C de Cochran (1947) compara o grupo com maior variancia em rela^ao aos demais. O teste exige 
que os dados apresentem distribui^ao normal. 

A estatistica C de Cochran e dada por: 

S 2 , 

_ u max 

^cal “ k 

±Sf 

i =1 


(7.17) 
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em que: 

S 2 mix e a maior variancia da amostra; 

5; ea variancia da amostra i,i= l,...,fe. 

De acordo com a expressao (7.17), se todas as variancias forem iguais, o valor da estatistica Qj/ ^ l/fe. Quanto 
maior a diferen^a de em rela^ao as demais variancias, o valor de C ca l aproxima-se de 1. Para confirmar se 
a hipotese nula sera ou nao rejeitada, o valor calculado deve ser comparado com o valor crftico da estatistica de 
Cochran (C c ) que esta disponivel naTabela M do apendice do livro. 

Os valores de C c variam em fungao do numero de grupos (fe), do numero de graus de liberdade V = ma x(n { — 
1) e do valor de a. ATabela M fornece os valores crfticos de C c tal que P(C cal > C c ) = a (para um teste unilateral 
a direita). Assim, rejeitamos H 0 se C cal > C c \ caso contrario, nao rejeitamos H 0 . 

■ EXEMPLO 5 - APLICA^AO DO TESTE C DE COCHRAN 

Elabore o teste C de Cochran para os dados do Exemplo 4. O objetivo aqui e comparar o grupo com maior 
variabilidade em rela^ao aos demais. 

■ solu^Ao 

Passo 1: Como o objetivo e comparar o grupo com maior variancia (grupo 3 — ver aTabela 7.8) em rela^ao aos 
demais, o teste indicado eo Cde Cochran. 


Passo 2: As hipoteses do teste C de Cochran, para este exemplo, sao: 

H 0 : a variancia populacional do grupo 3 e igual as demais 

a variancia populacional do grupo 3 e diferente das demais 

Passo 3: O mvel de significance a ser considerado e de 5%. 


Passo 4: A partir da Tabela 7.8, podemos observar que S 2 mix — 6.227,48. Logo, d calculo da estatistica C de 
Cochran e dado por: 


^ _ max 

^ cal ~ k 

Y sf 


6.227,48 


595,65 + 3.874,64 4- 6.227,48 


= 0,582 


i =1 


Passo 5: De acordo com aTabela M do apendice do livro, para fe = 3, V — 13 e OC— 5%, o valor critico da esta¬ 
tistica C de Cochran eC £ = 0,575. 

Passo 6: Decisao — como o valor calculado pertence a regiao critica (C^/ > Q), a hipotese nula e rejeitada, o que 
nos permite concluir, ao nivel de confian^a de 95%, que a variancia populacional do grupo 3 e diferente das demais. 


7.4.3. Teste F m ^ x de Hartley 

O teste F mdx de Hartley (1950) possui estatistica que representa a rela^ao entre o grupo com maior variancia 
(^max) e ° grupo com menor variancia (S 2 min ): 

S 2 . 

P _ u max 

"max, cal c 2 

6 mln ( 7 . 18 ) 

O teste assume que o numero de observances por grupo e igual (n t - n 2 = ... = n k - n). Se todas as varian¬ 
cias forem iguais, o valor de F mix sera 1. Quanto maior a diferempa entre S 2 mix e S 2 min , maior tambem sera o valor 
de F mix . Para confirmar se a hipotese nula de homogeneidade de variancias sera ou nao rejeitada, o valor calcu¬ 
lado deve ser comparado com o valor critico da estatistica (F miy J que esta disponivel na Tabela N do apendice 
do livro. Os valores criticos variam em funipao do numero de grupos (k), do numero de graus de liberdade V — n 
-1 e do valor de a, e essa tabela fornece os valores criticos de F niix c tal que P(F mix ca , > F mix c ) = a (para um teste 
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unilateral a direita).Assim, rejeitamos a hipotese nula H 0 de homogeneidade de variancias se F m ^ cal > F mix>c ; caso 
contrario, nao rejeitamos H 0 . 

O P-value (probabilidade associada a estatistica F mixc<j/ ) tambem pode ser obtido a partir daTabela N do apen- 
dice do livro. Nesse caso, rejeitamos H 0 se P < OC. 

■ EXEMPLO 6 - APLICA^AO DO TESTE F miix DE HARTLEY 

Elabore o teste F mdx de Hartley para os dados do Exemplo 4. O objetivo aqui e comparar o grupo com maior 
variabilidade com o grupo com menor variabilidade. 

■ SOLU^AO 

Passo 1: Como o objetivo e comparar o grupo com maior variancia (grupo 3 — ver aTabela 7.8) com o grupo 
com menor variancia (grupo 1), o teste indicado e o F mdx de Hartley 

Passo 2: As hipoteses do teste F m ^ de Hartley, para este exemplo, sao: 

H 0 : a variancia populacional do grupo 3 e igual a do grupo 1 
H t : a variancia populacional do grupo 3 e diferente da do grupo 1 


Passo 3: O nivel de significance a ser considerado e de 5%. 


Passo 4: A partir daTabela 7.8, podemos observar que S^ in = 595,65 e S^ x = 6.227,48. Logo, o calculo da 
estatistica do teste F mix de Hartley e dado por: 


F _jk = 6.227, 48 _ 1Q45 
maX '“' SL 595,65 


Passo 5: De acordo com aTabela N do apendice do livro, para fe = 3, V=13 t a — 5%, o valor critico do teste 
e F * = 3 953 


Passo 6: Decisao - como o valor calculado pertence a regiao critica (F mdxC(3/ > F nlix c ), a hipotese nula e rejeitada, 
o que nos permite concluir, ao nivel de confian^a de 95%, que a variancia populacional do grupo 3 e diferente 
da do grupo 1. 


Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com aTabela N do apendice do livro, a probabilidade associada a estatistica F mhcc = 10,45 
(P-value), para k — 3 e V = 13, e inferior a 0,01. 

Passo 6: Decisao — como P < 0,05, rejeitamos H 0 . 


7.4.4. Teste F de Levene 

A vantagem do teste F de Levene, em rela^ao aos demais testes de homogeneidade de variancias, e que ele e 
menos sensivel aos desvios de normalidade, alem de ser considerado um teste mais robusto. 

A estatistica do teste de Levene e dada pela expressao (7.19) e segue aproximadamente uma distribui^ao F 
com V 1 = fe-leV 2 = N-fe graus de liberdade, para um nivel de significancia OL\ 


F.t = 


y n r {Z-Zf 

_(N-<o tr 


(fe-l) 

i =1 j =1 


^k-l, N-k, a 


( 7 . 19 ) 
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em que: 

n { e a dimensao de cada uma das k amostras (i = 1,.. k); 

Nea dimensao da amostra global (N = n x + n 2 + ... + n k ); 

Zij= \X ij -X i \,i = 1,..., kej= 1,. 

Xy e a observa^ao j da amostra i; 

X { e a media da amostra i; 

Z, e a media de Z^ na amostra t; 

Zea media de Z, na amostra global. 

Uma expansao do teste de Levene pode ser encontrada em Brown e Forsythe (1974). 

A partir da tabela de distribui^ao F (Tabela A do apendice do livro), podemos determinar os valores criticos 
da estatfstica de Levene (F c = F^_ x }N _ k a ). A Tabela A fornece os valores criticos de F c tal que P(F cal > F c ) = a (ta¬ 
bela unilateral a direita). Para que a hipotese nula H 0 seja rejeitada, o valor da estatistica deve pertencer a regiao 
critica, isto e, Fa> F c . Se F cal < F c , nao rejeitamos H 0 . 

O P-value (probabilidade associada a estatistica F cal ) tambem pode ser obtido a partir da Tabela A. Nesse caso, 
rejeitamos H 0 se P < OC. 

M EXEMPLO 7 - APLICA^AO DO TESTE DE LEVENE 

Elabore o teste de Levene para os dados do Exemplo 4. 

■ solu^Ao 

Passo 1: O teste de Levene pode ser aplicado para verificar a homogeneidade de variancias entre os grupos, sen- 
do mais robusto que os demais testes. 

Passo 2: As hipoteses do teste de Levene, para este exemplo, sao: 

H 0 : as variancias populacionais dos 3 grupos sao homogeneas 

H^: a variancia populacional de pelo menos um grupo e diferente das demais 

Passo 3: O nlvel de significance a ser considerado e de 5%. 

Passo 4: O calculo da estatistica F cab de acordo com a expressao (7.19), esta detalhado a seguir. 


Tabela 7.9 Calculo da estatistica F cai . 


i 


xT 

ii 

Zy Z X 

(Zy-Z,) 2 

1 

620 

10,571 

-9,429 

88,898 

1 

630 

20,571 

0,571 

0,327 

1 

610 

0,571 

-19,429 

377,469 

1 

650 

40,571 

20,571 

423,184 

1 

585 

24,429 

4,429 

19,612 

1 

590 

19,429 

-0,571 

0,327 

1 

630 

20,571 

0,571 

0,327 

1 

644 

34,571 

14,571 

212,327 

1 

595 

14,429 

-5,571 

31,041 

1 

603 

6,429 

-13,571 

184,184 

1 

570 

39,429 

19,429 

377,469 

1 

605 

4,429 

-15,571 

242,469 

1 

622 

12,571 

-7,429 

55,184 

1 

578 

31,429 

11,429 

130,612 


= 609,429 

Zj = 20 


soma = 2.143,429 
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Tabela 7.9 Calculo da estatistica F cah ( Continuagao) 


i 

X* 

Z 2 j= \X y -X 2 \ 

Z 2 j z 2 

(Z 2j - z 2 y 

2 

710 

27,214 

-23,204 

538,429 

2 

780 

42,786 

-7,633 

58,257 

2 

810 

72,786 

22,367 

500,298 

2 

755 

17,786 

-32,633 

1.064,890 

2 

699 

38,214 

-12,204 

148,940 

2 

680 

57,214 

6,796 

46,185 

2 

710 

27,214 

-23,204 

538,429 

2 

850 

112,786 

62,367 

3.889,686 

2 

844 

106,786 

56,367 

3.177,278 

2 

730 

7,214 

-43,204 

1.866,593 

2 

645 

92,214 

41,796 

1.746,899 

2 

688 

49,214 

-1,204 

1,450 

2 

718 

19,214 

-31,204 

973,695 

2 

702 

35,214 

-15,204 

231,164 


X 2 = 737,214 

Z 2 - 50,418 


soma = 14.782,192 


i 

X 3, 

M 


(z 3j -z } y 

3 

924 

90,643 

24,194 

585,344 

3 

695 

138,357 

71,908 

5.170,784 

3 

854 

20,643 

-45,806 

2.098,201 

3 

802 

31,357 

-35,092 

1.231,437 

3 

931 

97,643 

31,194 

973,058 

3 

924 

90,643 

24,194 

585,344 

3 

847 

13,643 

-52,806 

2.788,487 

3 

800 

33,357 

-33,092 

1.095,070 

3 

769 

64,357 

-2,092 

4,376 

3 

863 

29,643 

-36,806 

1.354,691 

3 

901 

67,643 

1,194 

1,425 

3 

888 

54,643 

-11,806 

139,385 

3 

757 

76,357 

9,908 

98,172 

3 

712 

121,357 

54,908 

3.014,906 


X 3 = 833,36 

Z 3 = 66,449 


soma = 19.140,678 


Logo, o calculo de Fcal e realizado da seguinte forma: 

_ (42-3) 14 • (20 — 45,62) 2 +14 • (50,418 - 45,62) 2 +14 • (66,449 - 45,62) 2 

F i — 

(3 -1) 2.143,429 +14.782,192 +19.140,678 

^ = 8,427 

Passo 5: De acordo com a Tabela A do apendice do livro, para V 1 = 2, V 2 = 39 e OC = 5%, o valor critico do teste 
cF c = 3,24. 

Passo 6: Decisao - como o valor calculado pertence a regiao critica (F cal > F c ), a hipotese nula e rejeitada, o que 
nos permite concluir, ao mvel de confian^a de 95%, que a variancia populacional de pelo menos um grupo e 
diferente das demais. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 
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Passo 5: De acordo com aTabela A do apendice do livro, para V t — 2 e V 2 — 39, a probabilidade associada a es- 
tadstica F cal - 8,427 (. P-value ) e inferior a 0,01. 

Passo 6: Decisao — como P < 0,05, rejeitamos H 0 . 

7.4.5. Resolugao do teste de Levene por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tem autoriza^ao da International Business Machines Corporation®. 
Para testar a homogeneidade de variancias entre os grupos, o SPSS utiliza o teste de Levene. Os dados do 
Exemplo 4 estao dispomveis no arquivo Atendimentos_Loja.sav. Para a elabora^ao do teste, devemos clicar 
em Analyze —» Descriptive Statistics —» Explore..., conforme mostra a Figura 7.13. 
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Figura 7.13 Procedimento para a elabora^ao do teste de Levene no SPSS. 


Vamos incluir a variavel Atendimentos na lista de variaveis dependentes (Dependent List) e a variavel Loja na 
lista de fatores (Factor List), conforme mostra a Figura 7.14. 


Dependent List 


$ Atendimentos 


Fa dor List 


Sk Loja 


Label Cases by: 


rDisplay- 


) Both © Statistics © Plots 
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[ Plots... ] 

f 9P»°"8- 1 
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[ OK ) f Paste ] ("Reset ] ’ cancel] [ Help 


Figura 7.14 Selegao das variaveis para a elabora^ao do teste de Levene. 

A seguir, devemos clicar em Plots... e selecionar a op$ao Untransformed em Spread vs Level with 
Levene Test, conforme mostra a Figura 7.15. 
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Figura 7.15 Continua^ao do procedimento para a elabora^ao do teste de Levene. 

Por fim, clicaremos em Continue e OK. O resultado do teste de Levene tambem pode ser obtido pelo teste 
ANOVA, clicando-se em Analyze —> Compare Means —» One-Way ANOVA.... Na op^ao Options..., de-‘ 
vemos selecionar a alternativa Homogeneity of variance test. 

Test of Homogeneity of Variances 

Atendimentos 


Levene 

Statistic 

dfl 

df2 

Sig. 

8,427 

2 

39 

,001 


Figura 7.16 Resultados do teste de Levene para o Exemplo 4 no SPSS. 


O valor da estatistica de Levene e 8,427, exatamente igual ao calculado anteriormente. Como o nivel de sig¬ 
nificance observado e 0,001, valor inferior a 0,05, o teste apresenta rejei^ao da hipotese nula, o que nos permite 
concluir, ao nivel de confian^a de 95%, que as variancias populacionais nao sao homogeneas. 


7.4.6. Resolu^ao do teste de Levene por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se$ao tern autoriza^ao da StataCorp LP®. 

A estatistica do teste de Levene de igualdade de variancias e calculada no Stata por meio do comando robvar 
(teste robusto de igualdade de variancias), a partir da seguinte sintaxe: 

robvar variavel*, by(grupos*) 

em que o termo variavel* deve ser substituido pela variavel quantitativa estudada e o termo grupos* pela va¬ 
riavel categorica que os representa. 

Vamos abrir o arquivo Atendimentos_Loja.dta que contem os dados do Exemplo 7. Os tres grupos estao 
representados pela variavel loja e o numero de clientes atendidos pela variavel atendimentos. O comando a ser di- 
gitado e, portanto: 

robvar atendimentos, by(loja) 

O resultado do teste esta representado na Figura 7.17. Podemos verificar que o valor da estatistica (8,427) e 
semelhante ao calculado no Exemplo 7 e tambem ao gerado no SPSS, assim como o calculo da probabilidade 
associada a estatistica (0,001). Como P < 0,05, a hipotese nula e rejeitada, o que nos permite concluir, ao nivel 
de confian^a de 95%, que as variancias nao sao homogeneas. 
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1 . robvar atendimentos, by(loja) 


I 


1 

Summary of atendimentos if 


loja | 

Mean Std. Dev. 


Freq. 


1 1 

609.42857 24.405908 


14 


2 I 

737.21429 62.246629 


14 


3 I 

833.35714 78.914371 


14 


Total | 

726.66667 109.59074 


42 

WO 

= 8.4266657 

df(2, 39) Pr > 

F = 

0.00090845 

W50 

= 4.8479595 

df(2, 39) Pr > 

F = 

0.01317209 

W10 

= 7.8500863 

df(2, 39) Pr > 

F = 

0.00136452 


Figura 7.17 Resultados do teste de Levene para o Exemplo 7 no Stata. 

7.5. TESTES DE HIP6TESES SOBRE UMA MEDIA POPULACIONAL (p) A PARTIR DE UMA 
AMOSTRA ALEATORIA 

O objetivo e testar se uma media populacional assume ou nao determinado valor. 

7.5.1. Teste z quando o desvio-padrao populacional (o) for conhecido e a distribui^ao 
for normal 

Esse teste e aplicado quando uma amostra aleatoria de tamanho n for extraida de uma popula^ao com distri- 
bui^ao normal com media (jj) desconhecida e desvio-padrao (o) conhecido. Caso a distribui^ao da popula^ao 
nao seja conhecida, e necessario trabalhar com amostras grandes (n > 30), pois o teorema do limite central ga- 
rante que, a medida que o tamanho da amostra cresce, a distribui^ao amostral de sua media aproxima-se cada vez 
mais de uma distribui^ao normal. 

Para um teste bilateral, as hipoteses sao: 

H 0 : a amostra provem de uma popula^ao com determinada media (JLL = jJ, 0 ) 

Hj: contesta a hipotese nula (jl ^ 

A estatistica do teste utilizada aqui refere-se a media amostral (A). Para que a media da amostra possa ser com- 
parada ao valor tabelado, deve ser padronizada, de modo que: 

z cai = ~N(0,1), em que <X^=A 

x V« (7.20) 

Os valores criticos da estatistica (z) sao apresentados na Tabela E do apendice do livro. Essa tabela fornece os 
valores criticos de z c tal que P(Z cd > z) = OC (para um teste unilateral a direita). Para um teste bilateral, devemos 
considerar P(Z cal > z c ) = a/ 2,ja que P{Z cal < -z) + P(Z caX > z c ) = a. A hipotese nula H 0 de um teste bilateral e 
rejeitada se o valor da estatistica z cd pertencer a regiao critica, isto e, se Z cd < —z c ou Z ca{ > caso contrario, nao 
rejeitamos H 0 . 

As probabilidades unilaterais associadas a estatistica Z ca \ (P) tambem podem ser obtidas a partir da Tabela E. 
Para um teste unilateral, consideramos que P—P x . Para um teste bilateral, essa probabilidade deve ser dobrada (P 
= 2.Pi). Assim, para ambos os testes, rejeitamos H 0 se P < CX. 

m EXEMPLO 8 - APLICACAO DO TESTE z PARA UMA AMOSTRA 

Um fabricante de cereais afirma que a quantidade media de fibra alimentar em cada porfao do produto e, no 
minimo, de 4,2 g com um desvio-padrao de 1 g. Uma agenda de saude deseja verificar se essa afirmagao procede, 
coletando uma amostra aleatoria de 42 porf oes, em que a quantidade media de fibra alimentar e de 3,9 g. Com 
um nivel de significancia de 5%, existem evidencias para rejeitar a afirmafao do fabricante? 

■ SOLU^AO 

Passo 1:0 teste adequado para uma media populacional com cr conhecido, considerando uma unica amostra de 
tamanho n > 30 (distribuifao normal), e o teste z. 
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Passo 2: As hipoteses do teste z, para este exemplo, sao: 

H 0 : jl > 4,2 g (alega^ao do fornecedor) 

H 1 : i U<4,2g 

que corresponde a um teste unilateral a esquerda. 

Passo 3: O nivel de significance a ser considerado e de 5%. 

Passo 4: O calculo da estatistica Z ca b de acordo com a expressao (7.20), e: 

_X-^ 0 _ 3,9-4,2 _ 

Z “ !_ a/yfn ~ 1/V42 ’ 

Passo 5: De acordo com aTabela E do apendice do livro, para um teste unilateral a esquerda com (X — 5%, o 
valor critico do teste e z c = —1,645. 

Passo 6: Decisao — como o valor calculado pertence a regiao critica ( Z cal < —1,645), a hipotese nula e rejeitada, 
o que nos permite concluir, ao nivel de confian^a de 95%, que a quantidade media de fibra alimentar do fabri¬ 
cate e menor que 4,2 g. 

Se, em vez de compararmos o valor calculado com o valor critico da distribuigao normal padrao, utilizarmos 
o calculo do P-value , os passos 5 e 6 serao: 

Passo 5: De acordo com aTabela E do apendice do livro, para um teste unilateral a esquerda, a probabilidade 
associada ao valor da estatistica Z caX < -1,94 e 0,0262 (P-value). 


Passo 6: Decisao — como P < 0,05, a hipotese nula e rejeitada, o que nos permite concluir, ao nivel de confian^a 
de 95%, que a quantidade media de fibra alimentar do fabricante e menor que 4,2 g. 

7.5.2. Teste t de Student quando o desvio-padrao populacional (a) nao for conhecido 

O teste t de Student para uma amostra e aplicado quando nao conhecemos o desvio-padrao da popula^ao (o), 
de modo que seu valor e estimado a partir do desvio-padrao da amostra (S). Porem, ao substituirmos <7 por S na 
expressao (7.20), a distribui^ao da variavel passa a nao ser mais normal, tornando-se uma distribui^ao t de Student 
com n — 1 graus de liberdade. 

Analogamente ao teste z, o teste t de Student para uma amostra assume as seguintes hipoteses para um teste bilateral: 


H 0 :M = jUo 
Hi : 1*1 ^ f^o 


E o calculo da estatistica passa a ser: 


. = X ~Vo 
Ml S/4n 


l n -1 


(7.21) 


O valor calculado deve ser comparado com o valor tabelado da distribui^ao t de Student (Tabela B do apendi¬ 
ce do livro). Essa tabela fornece os valores criticos de t c tal que P(T cal > Q — Ot (para um teste unilateral a direita). 
Para um teste bilateral, temos que P(T ca i < —t c ) — CL/2 = P(T ca i > t c ), como mostra a Figura 7.18. 



Figura 7.18 Regiao de nao rejei^ao (RN) e regiao critica (RC) da distribui^ao t de Student para um teste bilateral. 
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Portanto, para um teste bilateral, a hipotese nula e rejeitada se Teal < -4 ou T cal > t- se -t c < T cal < t c , nao 
rejeitamos H 0 . 

As probabilidades unilaterais associadas a estatistica T ca l (P x ) tambem podem ser obtidas a partir da Tabela B. 
Para um teste unilateral, temos que P= P v Para um teste bilateral, essa probabilidade deve ser dobrada (P = 2.P t ). 
Assim, para ambos os testes, rejeitamos H 0 se P < a. 

M EXEMPLO 9 - APLICA^AO DO TESTE t DE STUDENT PARA UMA AMOSTRA 

O tempo medio de processamento de determinada tarefa em uma maquina tern sido de 18 minutos. Foram 
introduzidos novos conceitos para reduzir o tempo medio de processamento. Desta forma, apos certo periodo, 
coletou-se uma amostra de 25 elementos, obtendo-se o tempo medio de 16,808 minutos com desvio-padrao de 
2,733 minutos.Verifique se esse resultado evidencia uma melhora no tempo medio de processamento. Considere 
a = 1 %. 

■ SOLU^AO 

Passo 1: O teste adequado para uma media populacional com <7 desconhecido e o teste t de Student. 

Passo 2: As hipoteses do teste t de Student , para este exemplo, sao: 


H 0 : /i = 18 
H t :fi< 18 

que corresponde a um teste unilateral a esquerda. 

Passo 3: O nivel de significance a ser considerado e de 1%. 

Passo 4: O calculo da estatistica T ca b de acordo com a expressao (7.21), e: 

_ X— fi 0 _ 16,808-18 _ 

S/V^ 2,733/V25 

Passo 5: De acordo com a Tabela B do apendice do livro, para um teste unilateral a esquerda com 24 graus de 
liberdade ea= l%,o valor critico do teste e t c = —2,492. 

Passo 6: Decisao - como o valor calculado nao pertence a regiao critica ( T cd > -2,492), a hipotese nula nao e 
rejeitada, o que nos per mite concluir, ao nivel de confian^a de 99%, que nao houve melhora no tempo medio 
de processamento. 

Se, em vez de compararmos o valor calculado com o valor critico da distribui^ao t de Student , utilizarmos o 
calculo do P-value, os passos 5 e 6 serao: 

Passo 5: De acordo com a Tabela B do apendice do livro, para um teste unilateral a esquerda com 24 graus de 
liberdade, a probabilidade associada ao valor da estatistica T cai — —2,18 esta entre 0,01 e 0,025 ( P-value ). 

Passo 6: Decisao - como P > 0,01, nao rejeitamos a hipotese nula. 

7.5.3. Resolu^ao do teste t de Student a partir de uma unica amostra por meio do 
software SPSS 

A reprodu^ao das imagens nesta se$ao tern autoriza$ao da International Business Machines Corporation®. 

Se desejarmos comparar medias a partir de uma unica amostra, o SPSS disponibiliza o teste t de Student. Os 
dados do Exemplo 9 estao disponiveis no arquivo Exemplo9_Test_t.sav. O procedimento para aplica^ao do 
teste a partir do Exemplo 9 sera descrito a seguir.Vamos inicialmente clicar em Analyze —> Compare Means 
—> One-Sample T Test..., conforme apresentado na Figura 7.19. 
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Figura 7.20 Sele^ao da variavel e especificagao do valor a ser testado desejado. 
A seguir, devemos clicar em Options... para definir o nivel de confian^a desejado. 



Figura 7.21 Op^oes - Definl^ao do nivel de confian^a. 
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Por fim, vamos clicar em Continue e OK. Os resultados do teste sao apresentados na Figura 7.22. 


One-Sample Test 



Test Value = 18 | 

t 

df 

Sig. (2-tailed) 

Mean 

Difference 

95% Confidence Interval of the 
Difference 

Lower 

Upper 

Tempo 

-2,180 

24 

,039 

-1,19200 

-2,3203 

-.0637 


Figura 7.22 Resultados do teste t para uma amostra para o Exemplo 9 no SPSS. 


Essa figura apresenta o resultado do teste t (semelhante ao valor calculado no Exemplo 9) e a probabilidade 
associada ( P-value ) para um teste bilateral. Para um teste unilateral, a probabilidade associada e 0,0195 (vimos no 
Exemplo 9 que essa probabilidade estaria entre 0,01 e 0,025). Como 0,0195 > 0,01, nao rejeitamos a hipotese 
nula, o que nos permite concluir, ao mvel de confian^a de 99%, que nao houve melhora no tempo de proces- 
samento. 

7.5.4. Resolu^ao do teste t de Student a partir de uma unica amostra por meio do software 
Stata 

A reprodu^ao das imagens apresentadas nesta se^ao tern autoriza^ao da StataCorp LP®. 

O teste t de Student e elaborado no Stata a partir do comando ttest. Para uma media populacional, a sintaxe 
do teste e: 

ttest variavel* == # 

em que o termo variavel* deve ser substituido pela variavel considerada na analise e # pelo valor da media 
populacional a ser testado. 

Os dados do Exemplo 9 estao dispomveis no arquivo Exemplo9_Test__t.dta. Neste caso, a variavel analisada 
denomina-se tempo e o objetivo e verificar se o tempo medio de processamento permanece 18 minutos, de mo- 
do que o comando a ser digitado e: 

ttest tempo == 18 

O resultado do teste esta ilustrado na Figura 7.23. Podemos verificar que o valor calculado da estatistica 
(-2,180) e semelhante aquele calculado no Exemplo 9 e tambem gerado no SPSS, assim como a probabilidade 
associada para um teste unilateral a esquerda (0,0196). Como P > 0,01, nao rejeitamos a hipotese nula, o que nos 
permite concluir, ao nivel de confian^a de 99%, que nao houve melhora no tempo de processamento. 


1 . ttest tempo ==18 






One-sample 

t test 






Variable | 

Obs 

Mean 

Std. Err. 

Std. Dev. 

[95% Conf. 

Interval] 

tempo | 

25 

16.808 

.5466846 

2.733423 

15.6797 

17.9363 

mean = 

Ho: mean = 

mean(tempo) 
18 



degrees 

t = 

of freedom = 

-2.1804 

24 

Ha: mean < 18 

Pr(T < t) = 0.0196 

Pr ( 

Ha: mean != 
|T| > |t|) = 

18 

0.0393 

Ha: mean > 18 

Pr(T > t) a 0.9804 


Figura 7.23 Resultados do teste t para uma amostra para o Exemplo 9 no Stata. 


7.6. TESTE f DE STUDENT PARA COMPARA^AO DE DUAS MEDIAS POPULACIONAIS A 
PARTIR DE DUAS AMOSTRAS ALEATORIAS INDEPENDENTES 

O teste t para duas amostras independentes e aplicado para comparar as medias de duas amostras aleatorias 
(X ti , i— 1, n x \ X 2j ,j - 1, n 2 ) extraidas da mesma popula^ao. Neste teste, a variancia populacional e desco- 
nhecida. 
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Para um teste bilateral, na hipotese nula as medias populacionais sao iguais; se as medias populacionais forem 
diferentes, a hipotese nula e rejeitada, de modo que: 

H 0 : fli = 

Hi: Hi * Lh 


O calculo da estatistica T depende da comp.iracao das variancias populacionais entre os grupos. 


CASOI 


Considerando que as variancias populacionais sao diferentes, a estatistica T e dada por: 


(Xi-X;) 

''JO 

v 


E o numero de graus de liberdade e dado por: 


V= 


f s 2 $P 2 

—+ — 

V n 2 y 


, fe/» 2 ) 2 

(«i—i) ( m 2 - i) 


(7.22) 


(7.23) 


CAS0 2 


O 2 ! = <^2 

Quando as variancias populacionais forem homogeneas, o calculo da estatistica T sera dado por: 


(xi-Xs) 

1 cal ~ -- 


-*«/- 

s • 

1 

1 

+— 

r 

V»i 

n 2 


(7.24) 


em que: 

s = 

P v +n 2 — 2 (7-25) 

sendo que T cal segue uma distribui^ao t de Student com V = n x + n 2 — 2 graus de liberdade. 

O valor calculado deve ser comparado com o valor tabelado da distribui^ao t de Student (Tabela B do apendi- 
ce do livro). Essa tabela fornece os valores criticos de t c tal que P(T cal > t c ) = OC (para um teste unilateral a direita). 
Para um teste bilateral, temos que P(T ca i < —t c ) = a/ 2 ~ P(T ca[ > t c ) como mostra a Figura 7.24. 



Figura 7.24 Regiao de nao rejei^ao (RN) e regiao critica (RC) da distribuigao t de Student para um teste bilateral. 
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Portanto, para um teste bilateral, se o valor da estatistica pertencer a regiao critica, isto e, se T cal < ~t c ou T* > 
t a o teste oferece condi^oes a rejei^ao da hipotese nula. Por outro lado, se —t c < T caX < t 0 nao rejeitamos H 0 . 

As probabilidades unilaterais associadas a estatistica T cal (P t ) tambem podem ser obtidas a partir da Tabela B. 
Para um teste unilateral, temos que P = P x . Para um teste bilateral, essa probabilidade deve ser dobrada (P = 2.PJ. 
Assim, para ambos os testes, rejeitamos H 0 se P < a. 

Wk EXEMPLO 10 - APLICA^AO DO TESTE t DE STUDENT PARA DUAS AMOSTRAS INDEPENDENTES 

Um engenheiro de qualidade desconfia que o tempo medio de fabrica^ao de determinado produto plastico 
pode depender da materia-prima utilizada que e proveniente de dois fornecedores. Uma amostra com 30 obser- 
va^oes de cada fornecedor e coletada para teste e os resultados sao apresentados nasTabelas 7.10 e 7.11. Para o 
nivel de significance a — 5%, verifique se ha diferen^a entre as medias. 


Tabela 7.10 Tempo de fabrica$ao utilizando materia-prlma do fornecedor 1. 


22,8 

23,4 

26,2 

24,3 

22,0 

24,8 

26,7 

25,1 

23,1 

22,8 

25,6 

25,1 

24,3 

24,2 

22,8 

23,2 

24,7 

26,5 

24,5 

23,6 

23,9 

22,8 

25,4 

26,7 

22,9 

23,5 

23,8 

24,6 

26,3 

22,7 


Tabela 7.11 Tempo de fabrica^ao utilizando materia-prima do fornecedor 2. 


26,8 

29,3 

28,4 

25,6 

29,4 

27,2 

27,6 

26,8 

25,4 

28,6 

29,7 

27,2 

27,9 

28,4 

26,0 

26,8 

27,5 

28,5 

27,3 

29,1 

29,2 

25,7 

28,4 

28,6 

27,9 

27,4 

26,7 

26,8 

25,6 

26,1 


■ SOLU^AO 

Passo 1: O teste adequado para a compara^ao de duas medias populacionais com G desconhecido e o teste t de 
Student para duas amostras independentes. 

Passo 2: As hipoteses do teste t de Student , para este exemplo, sao: 

H 0 :Pi =lh 

H 


Passo 3: O nivel de significance a ser considerado e de 5%. 


Passo 4: A partir dos dados dasTabelas 7.10 e 7.11, calculamos X 1 — 24,227, X 2 — 27,530, S\ — 1,810 e S\ = 
1,559. Considerando que as variancias populacionais sao homogeneas, de acordo com a solu^ao elaborada no 
SPSS, usaremos as expressoes (7.24) e (7.25) para o calculo da estatistica T cab conforme segue: 



29-1,810 + 29-1,559 
30 + 30-2 


= 1,298 


Tcal “ 


24,277-27,530 

/l T 

1,298*-I-H — 

V 30 30 


= -9,708 


com quantidade de graus de liberdade V — 30 + 30 - 2 — 58. 

Passo 5: A regiao critica do teste bilateral, considerando V = 58 graus de liberdade e a = 5%, pode ser definida 
a partir da tabela de distribui^ao t de Student (Tabela B do apendice do livro), como mostra a Figura 7.25. 
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Figura 7.25 Regiao critica do Exemplo 10. 


Para um teste bilateral, cada uma das caudas corresponde a metade do nivel de significance CL. 

Passo 6: Decisao — como o valor calculado pertence a regiao critica, isto e, T cal < —2,002, devemos rejeitar a hi- 
potese nula, o que nos permite concluir, ao nivel de confian^a de 95%, que as medias populacionais sao diferentes. 

Se, em vez de compararmos o valor calculado com o valor critico da distribui^ao t de Student , utilizarmos o 
calculo do P-value, os passos 5 e 6 serao: 

Passo 5: De acordo com aTabela B do apendice do livro, para um teste unilateral a direita com V = 58 graus de 
liberdade, a probabilidade P 1 associada ao valor da estatistica T a , = 9 ,708 e inferior a 0,0005. Para um teste bila¬ 
teral, essa probabilidade deve ser dobrada (P = 2.P t ). 

Passo 6: Decisao — como P < 0,05, a hipotese nula e rejeitada. 

7.6.1 • Resolu^ao do teste t de Student a partir de duas amostras independentes por meio do 
software SPSS 

Os dados do Exemplo 10 estao dispomveis no arquivo Test_t_Duas_Amostras__Independentes.sav. O 
procedimento para resolu^ao do teste t de Student para a compara^ao de duas medias populacionais a partir de 
duas amostras aleatorias independentes no SPSS esta descrito a seguir. A reprodu^ao das imagens nesta se^ao tern 
autorizagao da International Business Machines Corporation®. 

Devemos clicar em Analyze —> Compare Means —> Independent-Samples T Test..., conforme mostra 
a Figura 7.26. 


file §p View Data Transform Analyze prectMarKeting Graphs UMes Addons VWow 
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Figura 7.26 Procedimento para a elaboragao do teste t a partir de duas amostras independentes no SPSS. 
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Vamos incluir a variavel Tempo em Test Variable(s) e a variavel Fornecedor em Grouping Variable. Na se- 
quencia, devemos clicar no botao Define Groups... para definir os grupos (categorias) da variavel Fornecedor , 
como mostra a Figura 7.27. 



Se o nivel de confian^a desejado pelo pesquisador for diferente de 95%, devemos selecionar o botao Options... 
para altera-lo. Por fim, vamos clicar em OK. Os resultados do teste sao apresentados na Figura 7.28. 


Independent Samples Test 



Levene’s Test for Equality of 
Variances 

t-test for Equality of Means 









95% Confidence Interval of the 
Difference 


F 

Sig. 

t 

df 

Sig. (2-tailed) 

Mean 

Difference 

Std. Error 
Difference 

Lower 

Upper 

Tempo Equal variances 
assumed 

,156 

,694 

-9,708 

58 

,000 

-3,25333 

,33510 

-3,92412 

-2,58255 

Equal variances not 
assumed 



-9,708 

57,679 

,000 

-3,25333 

,33510 

-3,92420 

-2,58247 


Figura 7.28 Resultados do teste t para duas amostras independentes para o Exemplo 10 no SPSS. 


O valor da estatistica do teste t e -9,708 e a probabilidade bilateral associada e 0,000 (P < 0,05), o que leva a 
rejei^ao da hipotese nula e nos permite concluir, ao nivel de confian^a de 95%, que as medias populacionais sao 
diferentes. Podemos notar que a Figura 7.28 tambem apresenta o resultado do teste de Levene. Como o nivel de 
significance observado e 0,694, valor superior a 0,05, podemos tambem concluir que as variances sao homoge- 
neas ao nivel de confian^a de 95%. 

7.6*2. Resolu^ao do teste t de Student a partir de duas amostras independentes por meio do 
software Stata 

A reprodu^ao das imagens apresentadas nesta se^ao tern autoriza^ao da StataCorp LP®. 

O teste t para compara^ao de medias de dois grupos independentes no Stata e gerado a partir da seguinte 
sintaxe: 

ttest variavel*, by(grupos*) 

em que o termo variavel* deve ser substituido pela variavel quantitativa em analise e o termo grupos* pela 
variavel categorica que os representa. 

Os dados do Exemplo 10 estao disponiveis no arquivo Test_t_Duas_Amostras_Independentes.dta. A va¬ 
riavel fornecedor discrimina os grupos de fornecedores; os valores para cada grupo de fornecedor estao especifica- 
dos na variavel tempo. Dessa forma, devemos digitar o seguinte comando: 

ttest tempo, by(fornecedor) 
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O resultado do teste esta ilustrado na Figura 7.29. Podemos verificar que o valor calculado da estatistica 
(-9,708) e semelhante ao calculado no Exemplo 10 e tambem gerado no SPSS, assim como a probabilidade as- 
sociada para um teste bilateral (0,000). Como P < 0,05, a hipotese nula e rejeitada, o que nos permite concluir, 
ao nivel de confian^a de 95%, que as medias populacionais sao diferentes. 


. ttest tempo, by(fornecedor) 

Two-sample t test with equal variances 

Group 

| Obs 

Mean 

Std. Err. 

Std. Dev. 

[95% Conf. 

Interval] 

1 

| 30 

24.27667 

.2456371 

1.34541 

23.77428 

24.77905 

2 

1 30 

27.53 

.2279418 

1.248489 

27.06381 

27.99619 | 

combined 

| 60 

25.90333 

.2691582 

2.084891 

25.36475 

26.44192 

diff 

1 

-3.253333 

.3351045 


-3.924118 

-2.582549 

diff 

= mean(l) - 

mean (2) 



t = 

-9.7084 

Ho: diff 

= 0 



degrees 

of freedom = 

58 

Ha: diff < 0 


Ha: diff != 

= 0 

Ha: diff >0 

Pr(T < t) = 0.0000 

Pr(|T| > |t|) = 

0.0000 

Pr (T > t) 

= 1.0000 || 


Figura 7.29 Resultados do teste t para duas amostras independentes para o Exemplo 10 no Stata. 


7.7. TESTE t DE STUDENT PARA COMPARA^AO DE DUAS MEDIAS POPULACIONAIS A 
PARTIR DE DUAS AMOSTRAS ALEATORIAS EMPARELHADAS 

Este teste e aplicado para verificar se as medias de duas amostras emparelhadas ou relacionadas, extraidas da 
mesma popula^ao (antes e depois) com distribui^ao normal, sao ou nao diferentes significativamente. Alem da 
normalidade dos dados de cada amostra, o teste exige a homogeneidade das variancias entre os grupos. 

Ao contrario do teste t para duas amostras independentes, devemos calcular, inicialmente, a diferen^a entre 
cada par de valores na posi<;ao i ( d { = X antesi — X depoish i = 1, ... , n) e, a partir dai, testar a hipotese nula de que a 
media das diferen^as na popula^ao e zero. 

Para um teste bilateral, temos que: 


H 0 : p d = 0,fl d = /I 

antes P'depois 


A estatistica do teste e: 


em que: 


e 


. = d~p d 
SJ-fn 


t 


V=n -1 




(7.26) 


(7.27) 


(7.28) 


O valor calculado deve ser comparado com o valor tabelado da distribuigao t de Student (Tabela B do apendi- 
ce do livro). Essa tabela fornece os valores criticos de t c tal que P(T cal > t c ) = a (para um teste unilateral a direita). 
Para um teste bilateral, temos que P(T ol/ < -t c ) - a/2 = P(T cd > t c ), como mostra a Figura 7.30. 
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Figura 7.30 Regiao de nao rejei^ao (RN) e regiao critica (RC) da distribul^ao t de Student para um teste bilateral. 

Portanto, para um teste bilateral, a hipotese nula e rejeitada se Teal < -t c ou T cai > t c ; se -t c < T ml < t c , nao re- 
jeitamos H 0 . 

As probabilidades unilaterais associadas a estatistica T cai (P x ) tambem podem ser obtidas a partir da Tabela B. 
Para um teste unilateral, temos que P = P v Para um teste bilateral, essa probabilidade deve ser dobrada (P = 2 .P t ). 
Assim, para ambos os testes, rejeitamos H 0 se P < a . 

■ EXEMPLO 11 - APLICASAO DO TESTE t DE STUDENT PARA DUAS AMOSTRAS EMPARELHADAS 

Um grupo de 10 operadores de maquinas, responsavel por realizar determinada tarefa, e treinado para execu- 
tar a mesma tarefa mais eficientemente. Para verificar se ha redu^ao no tempo de execu^ao da tarefa, mede-se o 
tempo gasto por cada operador, antes e depois do treinamento. Teste a hipotese de que as medias populacionais 
das duas amostras emparelhadas sao semelhantes, is to e, de que nao ha redu^ao no tempo de execugao da tarefa 
apos o treinamento. Considere OC — 5%. 


Tabela 7.12 Tempo gasto por operador antes do treinamento. 


3,2 

3,6 

3,4 

3,8 

3,4 

3,5 

3,7 

3,2 

3,5 

3,9 


Tabela 7.1 3 Tempo gasto por operador depois do treinamento. 


3,0 

3,3 

3,5 

3,6 

3,4 

3,3 

3,4 

3,0 

3,2 

3,6 


■ solu^Ao 

Passo 1: O teste adequado, nesse caso, e o teste t de Student para duas amostras emparelhadas. 

Como o teste exige a normalidade dos dados de cada amostra e a homogeneidade de variancias entre os gru- 
pos, os testes de K-S ou S-W, alem do teste de Levene, devem ser aplicados para tal verifica^ao. Conforme vere- 
mos mais adiante na solu^ao deste exemplo pelo SPSS, todas essas suposi^oes serao validadas. 

Passo 2: As hipoteses do teste t de Student , para este exemplo, sao: 


H 0 :^ = 0 


Passo 3: O nivel de significance a ser considerado e de 5%. 

Passo 4: Para o calculo da estatistica T^, inicialmente devemos calcular d { : 


Tabela 7.14: Calculo de d r 


v 

antes , i 

3,2 

3,6 

3,4 

3,8 

3,4 

3,5 

3,7 

3,2 

3,5 

3,9 

Y 

depois , i 

3,0 

3,3 

3,5 

3,6 

3,4 

3,3 

3,4 

3,0 

3,2 

3,6 

d t 

0,2 

0,3 

-0,1 

0,2 

0 

0,2 

0,3 

0,2 

0,3 

0,3 
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d = 


Td t 

g _ 0,2+0,3+---+0.3 

n 10 


=0,19 


S d = 


(0,2-0,19) 2 +(0,3-0,19) 2 + ---+(0,3-0,19) 2 


=0,137 


0,19 


Y =_z_ 

cal S d /4n 0,137/VlO 


= 4,385 


Passo 5: A regiao critica do teste bilateral pode ser definida a partir da tabela de distribui^ao t de Student (Tabela 
B do apendice do livro), considerando V = 9 graus de liberdade e a — 5%, como mostra a Figura 7.31. 



Figura 7.31 Regiao critica do Exemplo 11 . 


Para um teste bilateral, cada cauda corresponde a metade do nivel de significance OC. 

Passo 6: Decisao — como o valor calculado pertence a regiao critica ( T cai > 2,262), a hipotese nula e rejeitada, 
fato que permite concluirmos que existe diferen^a significativa entre o tempo dos operadores antes e depois do 
treinamento, ao nivel de confian^a de 95%. 

Se, em vez de compararmos o valor calculado com o valor critico da distribui^ao t de Student , utilizarmos o 
calculo do P-value , os passos 5 e 6 serao: 

Passo 5: De acordo com a Tabela B do apendice do livro, para um teste unilateral a direita com V = 9 graus de 
liberdade, a probabilidade P x associada ao valor da estatistica T caX = 4,385 esta entre 0,0005 e 0,001. Para um teste 
bilateral, essa probabilidade deve ser dobrada (P = 2^), de modo que 0,001 < P < 0,002. 

Passo 6: Decisao - como P < 0,05, a hipotese nula e rejeitada. 

7.7.1. Resolu^ao do teste t de Student a partir de duas amostras emparelhadas por meio do 
software SPSS 

Inicialmente, devemos testar a normalidade dos dados de cada amostra, assim como a homogeneidade de va- 
riancia entre os grupos. Utilizando os mesmos procedimentos descritos nas se^oes 7.3.3 e 7.4.5 (os dados devem 
ser tabelados da mesma forma que na se^ao 7.4.5), obtemos as Figuras 7.32 e 7.33. 


Tests of Normality 



Kolmogorov-Smirnov 3 

Shapiro-Wilk ! 

Amostra 

Statistic 

df 

Sig. 

Statistic 

df 

Sig. 

Tempo Antes 

,134 





,715 

Depois 

,145 





,353 


a. Lilliefors Significance Correction 

*. This is a lower bound of the true significance. 


Figura 7.32 Resultados dos testes de normalidade no SPSS. 
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Test of Homogeneity of Variances 

Tempo 


Levene 

Statistic 

dfl 

df2 

Sig. 

,061 

1 

18 

,808 


Figura 7.33 Resultados do teste de Levene no SPSS. 


Pela Figura 7.32, concluimos que ha normalidade dos dados para cada amostra. A partir da Figura 7.33, po- 
demos concluir que as variancias entre as amostras sao homogeneas. 

A reprodu^ao das imagens nesta se$ao tem autoriza^ao da International Business Machines Corporation®. 
Para aplicarmos o procedimento de solu^ao do teste t de Student para duas amostras emparelhadas no SPSS, 
devemos abrir o arquivo Test_t_Duas_Amostras_Emparelhadas.sav. Vamos clicar no menu Analyze —» 
Compare Means —» Paired-Samples T Test..., conforme mostra a Figura 7.34. 
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Figura 7.34 Procedimento para a elaboragao do teste fa partir de duas amostras emparelhadas no SPSS. 


Devemos selecionar a variavel Antes e desloca-la para Variable1, assim como a variavel Depois para Variable2 , 
conforme mostra a Figura 7.35. 


t£j 


x 


Paired Variables; 


;Pair 

Variablel 

Variable2 

1 

^ [Antes] 

^ Pepoisj 

2 
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[ OP 80 " 3 : -. 1 

[Bootstrap...] 


Figura 7.35 Sele^ao das variaveis a serem emparelhadas. 













Testes de Hipoteses 227 


Se o mvel de confian^a desejado for diferente de 95%, devemos clicar em Options... para altera-lo. Por fim, 
vamos clicar em OK. Os resultados do teste sao apresentados na Figura 7.36. 


Paired Samples Test 



Paired Differences 

t 

df 

Sig. (2-tailed) 


Std. Deviation 


95% Confidence Interval of the 
Difference 

Lower 

Upper 

Pair 1 Antes - Depois 

,19000 

,13703 

,04333 

,09197 

,28803 


9 

,002 


Figura 7.36 Resultados do teste t para duas amostras emparelhadas para o Exemplo 11 no SPSS. 


O valor do teste t e 4,385 e o nivel de significance observado para um teste bilateral e 0,002, valor inferior a 
0,05, o que nos leva a rejei^ao da hipotese nula e nos permite concluir, ao mvel de confian^a de 95%, que existe 
diferen^a significativa entre os tempos dos operadores antes e depois do treinamento. 

7.7.2. Resolu^ao do teste t de Student a partir de duas amostras emparelhadas por meio do 
software Stata 

O teste t para compara^ao de medias de dois grupos emparelhados sera resolvido no Stata para os dados do 
Exemplo 11. A reprodu^ao das imagens apresentadas nesta se^ao tern autoriza^ao da StataCorp LP @ . 

Vamos abrir, portanto, o arquivo Test_t_Duas_Amostras_Emparelhadas.dta. As variaveis emparelhadas 
denominam-se antes e depois . Nesse caso, devemos digitar o seguinte comando: 

ttest antes == depois 

O resultado do teste esta ilustrado na Figura 7.37. Podemos verificar que o valor calculado da estatistica 
(4,385) e semelhante ao calculado no Exemplo 11 e no software SPSS, assim como a probabilidade associada a 
estatistica para um teste bilateral (0,0018). Como P < 0,05, rejeitamos a hipotese nula de que os tempos dos ope¬ 
radores antes e depois do treinamento sejam iguais, ao mvel de confian^a de 95%. 


. ttest antes = 

Paired t test 

= depois 





Variable | 

Obs 

Mean 

Std. Err. 

Std. Dev. 

[95% Conf. Interval] 

antes | 

10 

3.52 

.0742369 

.2347575 

3.352065 3.687935 

depois | 

10 

3.33 

.0683943 

.2162817 

3.175281 3.484719 

diff | 

10 

.19 

.0433333 

.137032 

.0919732 .2880268 

mean(diff) 
Ho: mean(diff) 

= mean(antes - depois) 

= 0 

degrees 

t = 4.3846 

of freedom = 9 

Ha: mean(diff) 

< 0 

Ha: 

mean(diff) 

! = 0 

Ha: mean(diff) > 0 

Pr(T < t) = 0. 

9991 

Pr(|T| 

> It|) = 0 

.0018 

Pr(T > t) = 0.0009 


Figura 7.37 Resultados do teste t para duas amostras emparelhadas para o Exemplo 11 no Stata. 


7.8. ANALISE DE VARlANCIA (ANOVA) PARA COMPARA^AO DE MADIAS DE MAIS DE 
DUAS POPULATES 

A Analise deVariancia (ANOVA) e um teste utilizado para comparar medias de tres ou mais populates, por 
meio da analise de variancias amostrais. O teste se baseia em uma amostra extraida de cada popula^ao, com o 
intuito de determinar se as diferen^as entre as medias amostrais sugerem diferen^as significativas entre as medias 
populacionais, ou se tais diferen^as sao decorrentes apenas da variabilidade implicita da amostra. 

As suposi^oes da ANOVA sao: 

i) as amostras devem ser independentes entre si; 

ii) os dados nas populacoes devem apresentar distribuifao normal; 

Hi) as variancias populacionais devem ser homogeneas. 
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7.8.1. ANOVA de um fator (One-WayANOVA) 

A ANOVA de um fator, conhecida em ingles como One-Way ANOVA, e a extensao do teste t de Student para 
duas medias populacionais, o que permite ao pesquisador a compara^ao de tres ou mais medias populacionais. 

A hipotese nula do teste afirma que as medias populacionais sao iguais; se existir pelo menos um grupo com 
media diferente dos demais, a hipotese nula e rejeitada. 

Para Favero et al. (2009), a ANOVA de um fator permite verificar o efeito de uma variavel explicativa de na- 
tureza qualitativa (fator) em uma variavel dependente de natureza quantitativa. Cada grupo inclui as observances 
da variavel dependente em uma categoria do fator. 

Supondo que amostras independentes de tamanho n sejam extraidas de k populates (& > 3) e que as medias 
dessas populates possam ser representadas por \X x , jl 2 ,..., Hb a analise de variancia testa as seguintes hipoteses: 

H 0 :/h ~ Hi ~ ••• = Hk 

3(y) Hi ^ Hp i (7.29) 

Segundo Maroco (2014), de forma generica, as observances para este tipo de problema podem ser represen¬ 
tadas de acordo com o Quadro 7.2. 


Quadro 7.2 Observances da ANOVA de um fator. 


Amostras ou Grupos 

1 

2 

... 

k 

Yn 

Y a 


Y lk 

Y 2 1 

Y 2 2 


Y 2k 






\ 2 


Y+ 


em que representa a observa^ao i da amostra ou grupo j (i = 1,.. n-,j — 1,..., k) e nj e a dimensao da amostra 

k 

ou grupo j. A dimensao da amostra global e N~^ n { . Pestana e Gageiro (2008) apresentam o seguinte modelo: 

i=i 



Y,j=^ + £ ij 

(7.30) 


Y^n+iHi-iiyeg 

(7.31) 

em que: 

/tea media global da popula^ao; 

Hi e a media da amostra ou grupo i; 

0C { e o efeito da amostra ou grupo i; 

£ { j e o erro aleatorio. 

Yij = f l+a i +e ij 

(7.32) 


A ANOVA presume, portanto, que cada grupo seja oriundo de uma popula^ao com distribui^ao normal, 
media Hi e variancia homogenea, ou seja, Y {j ~ N(H h C?), o que resulta na hipotese de que os erros apresentam 
distribuinao normal com media zero e variancia constante, ou seja, £ { j ~ N(0, O), alem de serem independentes 
(Favero et al, 2009). 

As hipoteses da tecnica sao testadas a partir do calculo das variancias dos grupos, dai o nome ANOVA. A tec- 
nica envolve o calculo das varia^oes entre os grupos (Y { - Y) e dentro de cada grupo (Y {j - Y t ). A soma dos qua- 
drados dos erros ( SQU) dentro dos grupos e calculada por: 

5QU = XX(n-^) 2 (7.33) 

t=l j= 1 

Ja a soma dos quadrados dos erros entre os grupos, ou soma dos quadrados do fator (SQF), e dada por. 
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SQF^.K-Yf (7 . 34) 

Logo, a soma total e: 

k »«• 

SQT=SQU+SQF= -Y) 2 

<=i i =x (7.35) 

Segundo Favero et al. (2009) e Maroco (2014), a estatistica da ANOVA e dada pela divisao entre a variancia 
do fator (SQF dividido por k - 1 graus de liberdade) e a variancia dos erros (SQU dividido por N — k graus. de 
liberdade), de modo que: 


SQF 

7 fe-1 _ QMF 
~ SQU _ QME 
N-k 


(7,36) 


em que: 

QMF representa o quadrado medio do fator (estimativa da variancia do fator); 
QME representa o quadrado medio dos erros (estimativa da variancia do modelo). 

O Quadro 7.3 resume os calculos da ANOVA de um fator. 


Quadro 7.3 Calculos da ANOVA de um fator. 


Fonte de varia£ao 

Soma dos quadrados 

Graus de liberdade 

Quadrados medios 

F 

Entre os grupos 

SQF^nfci-Y) 2 

1=1 

k-1 

qmf= sqf 

k-1 

p _ QMF 
QME 

Dentro dos grupos 

<=i M 

N-k 

SQU 

QME=—-^~ 

N-k 


Total 

k «,• 

SQT^^-Y) 2 

*= 1 j= 1 

N- 1 




Fonte: Favero et al. (2009) e Maroco (2014). 


O valor de F pode ser nulo ou positivo, mas nunca negativo. A ANOVA requer, portanto, uma distribui^ao F 
assimetrica a direita. 

O valor calculado (F cd j) deve ser comparado com o valor tabelado da distribui^ao F (Tabela A do apendice do 
livro). Essa tabela fornece os valores criticos de Fk-i ,N-k, a tal que P(F cd > F) = oc (para um teste unilateral a 
direita). Portanto, a hipotese nula da ANOVA de um fator e rejeitada se F cai > F c ; caso contrario {F cd < F c ), nao 
rejeitamos H 0 . 

Faremos uso desses conceitos na estima^ao de modelos de regressao, no Capitulo 12. 

■ EXEMPLO 12 - APLICA^AO DA ANOVA DE UM FATOR 

Uma amostra de 32 produtos e coletada para analisar a qualidade do mel de tres fornecedores. Uma das me- 
didas de qualidade do mel e a porcentagem de sacarose, que normalmente varia de 0,25 a 6,5%. A Tabela 7.15 
apresenta a porcentagem de sacarose para a amostra coletada de cada fornecedor.Verifique se ha diferen^as desse 
indicador de qualidade entre os tres fornecedores, considerando o nivel de significance de 5%. 
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Tabela 7.15 Porcentagem de sacarose para os tres fornecedores. 


Fornecedor 1 (n t = 12) 

Fornecedor 2 ( n 2 = 10) 

Fornecedor 3 (« 3 = 10) 

0,33 

1,54 

1,47 

0,79 

1,11 

1,69 

1,24 

0,97 

1,55 

1,75 

2,57 

2,04 

0,94 

2,94 

2,67 

2,42 

3,44 

3,07 

1,97 

3,02 

3,33 

0,87 

3,55 

4,01 

0,33 

2,04 

1,52 

0,79 

1,67 

2,03 

1,24 



3,12 



Yj = 1,316 

Y 2 = 2,285 

Y 3 = 2,338 

S x = 0,850 

S 2 = 0,948 

S 3 = 0,886 


■ SOLU^AO 

Passo 1: O teste adequado, neste caso, e a ANOVA de um fator. 

Inicialmente, devemos verificar os pressupostos de normalidade para cada grupo e de homogeneidade de va- 
riancias entre os grupos por meio dos testes de Kolmogorov-Smirnov, Shapiro-Wilk e Levene. As Figuras 7.38 e 
7.39 apresentam os resultados obtidos a partir do software SPSS. 


Tests of Normality 


Fornecedor 

Kolmogorov-Smirnov 3 

Shapiro-Wilk j 

Statistic 

df 

Sig. 

Statistic 

df 

Sig. 

Sacarose 1,00 

,202 

12 

,189 

,915 

12 

,246 

2,00 

,155 

10 

,200* 

,929 

10 

,438 

3,00 

,232 

10 

,137 

,883 

10 

,142 


a. Lilliefors Significance Correction 

*. This is a lower bound of the true significance. 


Figura 7.38 Resultados dos testes de normalidade no SPSS. 


Test of Homogeneity of Variances 

Sacarose 


Levene 

Statistic 

dfl 



,337 

2 

29 

,716 


Figura 7.39 Resultados do teste de Levene no SPSS. 


Como o nivel de significance observado dos testes de normalidade para cada grupo e do teste de homoge¬ 
neidade de variancias entre os grupos e superior a 5%, podemos concluir que cada um dos grupos apresenta da¬ 
dos com distribui^ao normal e que as variancias entre os grupos sao homogeneas, ao nivel de confian^a de 95%. 
Como os pressupostos da ANOVA de um fator foram atendidos, a tecnica pode ser aplicada. 

Passo 2: A hipotese nula da ANOVA, para este exemplo, afirma que nao ha diferen^as no teor de sacarose dos 
tres fornecedores; se existir pelo menos um fornecedor com media populacional diferente dos demais, a hipotese 
nula sera rejeitada. Sendo assim, temos que: 


H 0 :/h = 

Hp 3(;j) fli ^ fij , i ^ j ( ij - 1, 2, 3) 
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Passo 3: O nivel de significancia a ser considerado e de 5%. 


Passo 4: O calculo da estatistica F ml esta especificado a seguir. 

Para este exemplo, sabemos que k = 3 grupos e a dimensao da amostra global e N — 32. A media da amostra 
global eY = 1,938. 

A soma dos quadrados do fator ( SQF) e: 

SQF = 12 • (1,316 - 1,938) 2 + 10 • (2,285 - 1,938) 2 + 10 • (2,338 - 1.938) 2 = 7,449 


Logo, o quadrado medio do fator ( QMF) e: 


QMF = 


SQF 

k-1 


7,449 

2 


= 3,725 


O calculo da soma dos quadrados dos erros ( SQU) esta detalhado naTabela 7.16. 


Tabela 7.16 Calculo da soma dos quadrados dos erros (SQL/). 


Fornecedor 

Sacarose 

Yy-Y, 

(Y tj - Yj) 2 

1 

0,33 

-0,986 

0,972 

1 

0,79 

-0,526 

0,277 

1 

1,24 

-0,076 

0,006 

1 

1,75 

0,434 

0,189 

1 

0,94 

-0,376 

0,141 

1 

2,42 

1,104 

1,219 

1 

1,97 

0,654 

0,428 

1 

0,87 

-0,446 

0,199 

1 

0,33 

-0,986 

0,972 

1 

0,79 

-0,526 

0,277 

1 

1,24 

-0,076 

0,006 

1 

3,12 

1,804 

3,255 

2 

1,54 

-0,745 

0,555 

2 

1,11 

-1,175 

1,381 

2 

0,97 

-1,315 

1,729 

2 

2,57 

0,285 

0,081 

2 

2,94 

0,655 

0,429 

2 

3,44 

1,155 

1,334 

2 

3,02 

0,735 

0,540 

2 

3,55 

1,265 

1,600 

2 

2,04 

-0,245 

0,060 

2 

1,67 

-0,615 

0,378 

3 

1,47 

-0,868 

0,753 

3 

1,69 

-0,648 

0,420 

3 

1,55 

-0,788 

0,621 

3 

2,04 

-0,298 

0,089 

3 

2,67 

0,332 

0,110 

3 

3,07 

0,732 

0,536 

3 

3,33 

0,992 

0,984 

3 

4,01 

1,672 

2,796 

3 

1,52 

-0,818 

0,669 

3 

2,03 

-0,308 

0,095 

SQU 



23,100 
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Logo, o quadrado medio dos erros e: 


QME = 


SQU 

N-k 


23,100 

29 


0,797 


O valor da estatistica Fed portanto: 

F _ QMF 
M/ QME 


3,725 

0,797 


4,676 


Passo 5: De acordo com aTabela A do apendice do livro, o valor critico da estatistica e F c = F 2 , 29 , 5 % = 3,33. 


Passo 6: Decisao - como o valor calculado pertence a regiao critica (F^ > F c ), rejeitamos a hipotese nula, o que 
nos permite concluir, ao rnvel de confian^a de 95%, que existe pelo menos um fornecedor com media popula- 
cional diferente dos demais. 


Se, em vez de compararmos o valor calculado com o valor critico da distribui^ao F de Snedecor, utilizarmos o 
calculo do P-value, os passos 5 e 6 serao: 

Passo 5: De acordo com aTabela A do apendice do livro, para V x - 2 graus de liberdade no numerador e V 2 — 
29 graus de liberdade no denominador, a probabilidade associada ao valor da estatistica Fc = 4,676 esta entre 
0,01 e 0,025 (P-value). 

Passo 6: Decisao — como P < 0,05, a hipotese nula e rejeitada. 

Resolu^ao da ANOVA de um fator por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tern autoriza^ao da International Business Machines Corporation®. Os 
dados do Exemplo 12 estao disponiveis no arquivo ANOVA_Um_Fator.sav.Vamos inicialmente clicar no me¬ 
nu Analyze —> Compare Means —» One-Way ANOVA..., conforme mostra a Figura 7.40. 
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Figura 7.40 Procedimento para a elabora^ao da ANOVA de um fator (One-way ANOVA) no SPSS. 

Vamos incluir a variavel Sacarose na lista de variaveis dependentes (Dependent List) e a variavel Fornecedor 
na caixa Factor, de acordo com a Figura 7.41. 
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Dependent List 


$ Sacarose 


Factor: 


Fornecedor 




£BgSS& 


1 


LfflUgja^J 


Figura 7.41 Sele^ao das variaveis. 


Devemos clicar, na sequencia, no botao Options... e escolher a op^ao Homogeneity of variance test 
(teste de Levene para homogeneidade de variancias). Por fim, vamos clicar em Continue e OK para obtermos 
o resultado do teste de Levene, alem da tabela ANOVA. Como a ANOVA nao disponibiliza o teste de normali- 
dade, ele deve ser obtido aplicando o mesmo procedimento descrito na se^ao 7.3.3. 


Tests of Normality 


Fornecedor 

Kolmogorov-Smirnov 3 

Shapiro-Wilk 

Statistic 

df 

Sig. 

Statistic 

df 

Sig. 

Sacarose 1,00 

,202 

12 

,189 

,915 

12 

,246 

2,00 

,155 

10 

,200* 

,929 

10 

,438 

3,00 

,232 

10 

,137 

,883 

10 

,142 


a. Lilliefors Significance Correction 

*. This is a lower bound of the true significance. 


Figura 7.42 Resultados dos testes de normalidade para o Exemplo 12 no SPSS. 


Test of Homogeneity of Variances 


Sacarose 


Levene 

Statistic 

dfl 

df2 

Sig. 

,337 

2 

29 

,716 


Figura 7.43 Resultados do teste de Levene para o Exemplo 12 no SPSS. 


ANOVA 


Sacarose 



Sum of 
Squares 

df 

Mean Square 

F 

Sig. 

Between Groups 

7,449 

2 

3,725 

4,676 

,017 

Within Groups 

23,100 

29 

,797 



Total 

30,549 

31 





Figura 7.44 Resultados da ANOVA de um fator para o Exemplo 12 no SPSS. 
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De acordo com a Figura 7.42, podemos verificar que cada um dos grupos apresenta dados com distribui^ao 
normal. E, pela Figura 7.43, concluimos que as variancias entre os grupos sao homogeneas. 

A partir da tabela ANOVA (Figura 7.44), temos que o valor do teste F e 4,676 e o respectivo P-value e 0,017 
(vimos no Exemplo 12 que esse valor estaria entre 0,01 e 0,025), valor inferior a 0,05, o que nos leva a rejei^ao 
da hipotese nula e nos permite concluir, ao nivel de confian^a de 95%, que pelo menos uma das medias popula- 
cionais e diferente das demais (ha diferen^as na porcentagem de sacarose no mel dos tres fornecedores). 

Resolu^ao da ANOVA de um fator por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se^ao tern autoriza^ao da StataCorp LP @ . 

O teste ANOVA de um fator no Stata e gerado a partir da seguinte sintaxe: 

anova variavel y * fator* 

em que o termo variavely* deve ser substituido pela variavel dependente de natureza quantitativa e o termo 
fator* pela variavel explicativa de natureza qualitativa. 

Os dados do Exemplo 12 estao disponiveis no arquivo Anova_Um_JFator.dta. A variavel dependente quan¬ 
titativa denomina-se sacarose e o fator e representado pela variavel fornecedor. Dessa forma, devemos digitar o se¬ 
guinte comando: 

anova sacarose fornecedor 

O resultado do teste esta ilustrado na Figura 7.45. Podemos verificar que o valor calculado da estatistica (4,68) 
e semelhante aquele calculado no Exemplo 12 e tambem gerado no SPSS, assim como a probabilidade associada 
ao valor da estatistica (0,017). Como P < 0,05, a hipotese nula e rejeitada, o que nos permite concluir, ao nivel 
de confian^a de 95%, que pelo menos uma das medias populacionais e diferente das demais. 


1 . anova sacarose fornecedor 







Number of obs 
Root MSE 

= 32 R-squared 

= .892488 Adj R-squared 

= 0.2438 

= 0.1917 

Source 

1 

Partial SS 

df 

MS 

F 

Prob > F 

Model 

1 

7.44918576 

2 

3.72459288 

4.68 

0.0174 

fornecedor 

1 

1 

7.44918576 

2 

3.72459288 

4.68 

0.0174 

Residual 

1 

1 

_ i _ 

23.099502 

29 

.796534551 



Total 

■ 

x 

30.5486877 

31 

.98544154 




Figura 7.45 Resultados da ANOVA de um fator para o Exemplo 12 no Stata. 


7.8.2. ANOVA fatorial 

A ANOVA fatorial e uma extensao da ANOVA de um fator, assumindo os mesmos pressupostos, porem con- 
siderando dois ou mais fatores. A ANOVA fatorial presume que a variavel dependente de natureza quantitativa 
seja influenciada por mais de uma variavel explicativa de natureza qualitativa (fator). Ela tambem testa as possiveis 
intercedes entre os fatores, por meio do efeito resultante da combina^ao do nivel i do fator A com o nivel j do 
fator B, conforme versam Pestana e Gageiro (2008), Favero et al. (2009) e Maroco (2014). 

Para Pestana e Gageiro (2008) e Favero et al (2009), o objetivo da ANOVA fatorial e determinar se as medias 
para cada nivel do fator sao iguais (efeito isolado dos fatores na variavel dependente) e verificar a intera^ao entre 
os fatores (efeito conjunto dos fatores na variavel dependente). 

Para fins didaticos, a ANOVA fatorial sera descrita para o modelo de dois fatores. 

7.8.2.7. ANOVA de dois fatores (Two-Way ANOVA) 

Segundo Favero et al (2009) e Maroco (2014), as observances da ANOVA de dois fatores {Two-Way ANOVA) 
podem ser representadas, de forma generica, como mostra o Quadro 7.4. Para cada celula, verificamos os valores 
da variavel dependente nos fatores A e B em estudo. 
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Quadro 7.4 Observances da ANOVA de dois fatores. 




Fator B 



1 

2 


b 



Ym 

*121 


y m 


1 

^112 

^122 


Y U 2 








Yii . 

Y\2n 


Ym 



^211 

^221 


y m 

u 

Q 

2 

^212 

^222 


Y 2b2 







y 21 „ 

Y 2 2n 


Y 2bn 

... 








Y a2l 


Ym 


a 

r.12 

Xi22 


Y ab 2 









Y a2n 


Ym 


Fonte: Favero et al. (2009) e Maroco (2014). 


em que Yijk representa a observanao k (k — 1, ... ,n) do nivel i do fator A (i — 1, ... , a) e do nivel j do fator B 
(j=U...,b). 

Inicialmente, para verificarmos os efeitos isolados dos fatores A e B, devemos testar as seguintes hipoteses 
(Favero et al., 2009 e Maroco, 2014): 

H o : /i] ~ j^2~ • • • = /4 

Hi: 3 ft0 Hi * fl v , i * r (i, (■' = 1,.. a) (7.37) 

e 

Ho:A*i = JU2= - =/4 

ll, * fl p j (j,f = 1 (7.38) 

Ja para verificarmos o efeito conjunto dos fatores na variavel dependente, devemos testar as seguintes hipote¬ 
ses (Favero et al., 2009 e Maroco, 2014): 

H 0 : Yy = 0, para i ^ j (nao ha intera^ao entre os fatores A e B) 

Hf Yij ^ 0, P ara * ^ j (ha intera^ao entre os fatores d e B) (7.39) 


O modelo apresentado por Pestana e Gageiro (2008) pode ser descrito como: 

Y,, k =fi+a,+(3 J + r tj + £ ljk 


(7.40) 


em que: 

/lea media global da popula^ao; 

OC { e o efeito do nivel i do fator A, dado por /i, — jl; 

/5j e o efeito do nivel j do fator B, dado por - fi\ 

Yij e a intera^ao entre os fatores; 

£ij k e o erro aleatorio que apresenta distribuinao normal com media zero e variancia constante. 
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Para padronizar os efeitos dos mveis escolhidos dos dois fatores, devemos assumir que: 

t^±Pj=lr^ In=o 

f=i J- 1 1=1 J =1 (7.41) 


Vamos considerar Y, Yp Y { e Yj a media geral da amostra global, a media por amostra, a media do nivel i do 
fator A e a media do nivel j do fator B, respectivamente. 

Podemos descrever a soma dos quadrados dos erros ( SQU) como: 

i=i j— i k—i 

(7.42) 

Ja a soma dos quadrados do fator A (SQF A ), a soma dos quadrados do fator B ( SQF B ) 
da intera^ao ( SQ AB ) estao representadas, respectivamente, nas expressoes (7.43), (7.44) e 

e a soma dos quadrados 
(7.45) a seguir: 

SQF A =b-n-f j (Y,-Yf 

i= 1 

(7.43) 

SQF^a-n-^.-Y) 2 
j= 1 

(7.44) 

5Q^=»-X2(n -^-y.+y) 2 

i=l 7=1 

(7.45) 

Neste sentido, a soma dos quadrados totais pode ser escrita conforme segue: 


a b n 

SQT =SQU + SQF a + SQF b + SQ AB = £ X E Ok ” V f 

1=1 7=1 fe=l 

(7.46) 

Assim, a estatlstica da ANOVA para o fator ^4 e dada por: 


sqf a 

_ a-1 _ QMF a 

A SQU QME 

(n-V)-ab 

(7.47) 

em que: 

QMF a e o quadrado medio do fator A; 

QME e o quadrado medio dos erros. 


Ja a estatlstica da ANOVA para o fator B e dada por: 


sqf b 

_ b -1 _ qmf b 

B SQU QME 

(n — 1) • ab 

(7.48) 


em que: 

QMF b e o quadrado medio do fator B. 
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E a estatistica da ANOVA para a intera^ao e representada por: 


SQ 


AB 


Fab — 


(a-lHb-1) 
SQU 
(;n — \)-ab 


QM A b 

QME 


em que: 

QM ab e o quadrado medio da intera^ao. 

Os calculos da ANOVA de dois fatores estao resumidos no Quadro 7.5. 


(7.49) 


Quadro 7.5 Calculos da ANOVA de dois fatores. 


Fonte de 
varia9ao 

Soma dos quadrados 

Graus de 
liberdade 

Quadrados medios 

F 

Fator A 

SQF^b-n-^-Y) 2 

1=1 

a — 1 

Qmf a - SQ a 

a -1 

P _ QMFa 

A QME 

Fator B 

SQF B =a-n^(Y j -Yf 
j= 1 

b- 1 

Q MF B = SQF ‘ 

B b~ 1 

P _Q MF b 

B QME 

Intera^ao 

5Q^=«-SE(n-^-T+^) 2 

f=i j=i 

(a-l)-(b-l) 

qm ab =—- 

B (a-lHb-1) 

P _Q M ab 

AB QME 

Erro 

a b n / x 

sQu=2Sl(^-n) 

i=l 7=1 k=l 

(n - 1) • ab 

QME= SQU 
(n~l)‘ab 


Total 

a b n / 

,•=1 j= 1 k=l 

N- 1 




Fonte : Favero et al. (2009) e Maroco (2014). 


Os valores calculados das estatisticas ( F A , F B l e F AB ) devem ser comparados com os valores criticos ob- 
tidos a partir da tabela de distribui^ao F (Tabela A do apendice do livro): F C A =F a _^ n _ l)ahai F B = F h _ 1{n _^ aba e 
F AB = F( a _ i^b-i) t ( n -i)a bt a -Para cada estatistica, se o valor pertencer aregiao critica (JF A > F C A , F B l > F B , F AB >F AB ), 
devemos rejeitar a hipotese nula. Caso contrario, nao rejeitamos H 0 . 

■ EXEMPLO 13 - APLICA^AO DA ANOVA DE DOIS FATORES 

Uma amostra com 24 passageiros que viajam no percurso Sao Paulo-Campinas em determinada semana e co- 
letada. Sao analisadas as seguintes variaveis: (1) tempo de viagem em minutos, (2) companhia de onibus escolhi- 
da e (3) dia da semana. O objetivo e verificar se existe rela^ao entre tempo de viagem e a companhia de onibus, 
entre tempo de viagem e o dia da semana, e entre a companhia de onibus e o dia da semana. Os niveis conside- 
rados na variavel companhia de onibus sao: empresa A (1), empresa B (2) e empresa C (3).Ja os niveis referentes ao 
dia da semana sao: segunda-feira (1), ter^a-feira (2), quarta-feira (3), quinta-feira (4), sexta-feira (5), sabado (6) e 
domingo (7). Os resultados da amostra sao apresentados na Tabela 7.17 e tambem estao disponiveis no arquivo 
ANOVA_Dois_Fatores.sav.Teste as hipoteses em questao, considerando o nivel de significance de 5%. 
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Tabela 7.17 Dados do Exemplo 13 (aplica^ao da ANOVA de dois fatores). 


Tempo (min) 

Companhia 

Dia da semana 

90 

2 

4 

100 

1 

5 

72 

1 

6 

76 

3 

1 

85 

2 

2 

95 

1 

5 

79 

3 

1 

100 

2 

4 

70 

1 

7 

80 

3 

1 

85 

2 

3 

90 

1 

5 

77 

2 

7 

80 

1 

2 

85 

3 

4 

74 

2 

7 

72 

3 

6 

92 

1 

5 

84 

2 

4 

80 

1 

3 

79 

2 

1 

70 

3 

6 

88 

3 

5 

84 

2 

4 


Resolu^ao da ANOVA de dois fatores por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tem autoriza^ao da International Business Machines Corporation®. 

Passo 1: O teste adequado, nesse caso, e a ANOVA de dois fatores. 

Inicialmente, devemos verificar se ha normalidade da variavel Tempo (metrica) no modelo (conforme mostra 
a Figura 7.46). De acordo com essa figura, podemos concluir que a variavel Tempo possui distribui^ao normal, ao 
nivel de confian^a de 95%. A hipotese de homogeneidade de variancias sera verificada no Passo 4. 


Tests of Normality 



Kolmogorov-Smirnov 3 

Shapiro-Wilk 

Statistic 

df 

Sig. 

Statistic 

df 

Sig. 

Tempo 

,126 

24 

,200* 

,956 

24 

,370 


a. Lilliefors Significance Correction 

*. This is a lower bound of the true significance. 


Figura 7.46 Resultados dos testes de normalidade no SPSS. 
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Passo 2: A hipotese nula H 0 da ANOVA de dois fatores, para este exemplo, assume que as medias populacio- 
nais de cada nivel do fator Companhia e de cada nivel do fator Dia da semana sao iguais, isto e, H q: = fa = 

= ^2= ... =fl 7 . 

A hipotese nula H 0 tambem afirma que nao ha intera^ao entre o fator Companhia e o fator Dia da semana , isto 
e,H 0 : yij = 0, para i&j. 

Passo 3: O nivel de significance a ser considerado e de 5%. 

Passo 4: As estatisticas F da ANOVA para o fator Companhia , para o fator Dia da semana e para a intera^ao 
Companhia * Dia da semana serao obtidas por meio do software SPSS, de acordo com o procedimento especifi- 
cado a seguir. 

Para tanto, vamos clicar no menu Analyze —> General Linear Model —> Univariate..., conforme mostra a 
Figura 7.47. 
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Figura 7.47 Procedimento para a elabora^ao da ANOVA de dois fatores no SPSS. 

Na sequencia, vamos incluir a variavel Tempo na caixa das variaveis dependentes (Dependent Variable) e as 
variaveis Companhia e Dia_da_semana na caixa de fatores fixos (Fixed Factor(s)), como mostra a Figura 7.48. 


Dependent Variable: 



1 % 

& Tempo 



Fixed Factor(s}: 


; 

Companhia 
£) Dia_da_semana 



Random Factor(s): 


: ^ . 




CovariateCs}: 


** 



: . 

WLS Weight 


| 



Model... j 
Contrasts... j 


Plots... 


| Post Hoc... 
f Save... 

[ Options... 

(Bootstrap... 


Figura 7.48 Selegao das variaveis para a elaboragao da ANOVA de dois fatores. 
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Este exemplo e baseado na ANOVA do tipo I, em que os fatores sao fixos. Se um dos fatores fosse escolhido 
aleatoriamente, ele seria inserido na caixa Random Factor(s), resultando em um caso de ANOVA do tipo III. 
O botao Model... define o modelo de analise de variancia a ser testado. Por meio da op^ao Contrasts..., po- 
demos avaliar se uma categoria de um dos fatores e diferente significativamente das demais categorias do mesmo 
fator. Os graficos podem ser gerados por meio da op^ao Plots..., permitindo assim a visualiza^ao da existencia 
ou nao de intera^oes entre os fatores. Ja o botao Post Hoc... permite que sejam feitas compara^oes de multiplas 
medias. E, por fim, a partir do botao Options..., podemos obter estatisticas descritivas e o resultado do teste de 
Levene de homogeneidade de variancias, bem como selecionar o nivel de significance apropriado (Favero et al, 
2009 e Maroco, 2014). 

Portanto, como queremos testar a homogeneidade de variancias, devemos selecionar, em Options..., a op^ao 
Homogeneity tests, conforme mostra a Figura 7.49. 


■Estimated Marginal Means -.-.■— 

Factors) and Factor Interactions: 


Display Means for 


IKOVERALL) 


Companhia 

Dia_da_semana 

Companhia*Dia_da_semana 


B Compare main effects 
Confidence interval adjustment 


LSD(noneJ 


-Display-—- 

n Descriptive statistics 
O Estimates of effect s ize 
0 Observed power 
0 Parameter estimates 
0 Contrast coefficient mate 


0 Homogeneity tests 
0 Spread vs. level plot 
0 Residual plot 
0 Lack of fit 

0 general estimable function 


Significance level: 


,05 


Confidence intervals are 95,0 % 


I Continue] 

V.. 


Cancel 


Help 


Figura 7.49 Teste de homogeneidade das variancias. 

Finalmente, vamos clicar em Continue e OK para a obten^ao do teste de Levene de homogeneidade de va¬ 
riancias e da tabela ANOVA de dois fatores. 


Levene's Test of Equality of Error 
Variances 3 

Dependent Variable:Tempo 


F 

dfl 

df2 

Sig. 

1,096 

13 

10 

,451 


Tests the null hypothesis that the error 
variance of the dependent variable is 
equal across groups. 

a. Design: Intercept + Companhia + 
Dia_semana + Companhia * 

Dia_semana 

Figura 7.50 Resultados do teste de Levene no SPSS. 
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Tests of Between-Subjects Effects 


Dependent Variable:Tempo 


Source 

Type III Sum 
of Squares 

df 

Mean Square 

F 

Sig. 

Corrected Model 

1501,042 a 

13 

115,465 

4,753 

,009 

Intercept 

117283,924 

1 

117283,924 

4828,155 

,000 

Companhia 

60,332 

2 

30,166 

1,242 

,330 

Dia_da_semana 

1116,751 

6 

186,125 

7,662 

,003 

Companhia * 
Dia_da_semana 

37,190 

5 

7,438 

,306 

,898 

Error 

242,917 

10 

24,292 



Total 

166251,000 

24 




Corrected Total 

1743,958 

23 





a. R Squared = ,861 (Adjusted R Squared = ,680) 

Figura 7.51 Resultados da ANOVA de dois fatores para o Exemplo 13 no SPSS. 


A partir da Figura 7.50, verificamos que as variancias entre os grupos sao homogeneas (P = 0,451 > 0,05). 
Ja pela Figura 7.51, podemos concluir que nao existem diferen^as significativas entre os tempos de viagem 
das companhias analisadas, ou seja, o fator Companhia nao apresenta efeito significativo sobre a variavel Tempo (P 
= 0,330 > 0,05 ). 

Por outro lado, concluimos que existem diferen^as significativas entre os dias da semana, isto e, o fator Dia_ 
da_semana tern efeito significativo sobre a variavel Tempo (P — 0,003 < 0,05). 

Por fim, concluimos que nao existe uma intera^ao significativa, ao nivel de confian^a de 95%, entre os dois 
fatores Companhia e Dia_da_semana, ja que P = 0,898 > 0,05. 

Solu^ao da ANOVA de dois fatores por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se^ao tern autoriza^ao da StataCorp LP®. 

O comando anova no Stata especifica a variavel dependente em analise, assim como os respectivos fatores. 
As intera^oes sao especificadas utilizando o caractere # entre os fatores. Desse modo, a ANOVA de dois fatores e 
gerada por meio da seguinte sintaxe: 

anova variavel Y * fator A * fator B * fator A #fator B 

ou simplesmente: 

anova variavel Y * fator A *##fator B * 

em que o termo variavel y * deve ser substituido pela variavel dependente de natureza quantitativa e os termos 
fator A * e fator B * pelos respectivos fatores. 

Se digitarmos apenas a sintaxe anova variavely* fator A * fator B *, sera elaborada apenas a ANOVA para 
cada fator, e nao entre os fatores. 

Os dados do Exemplo 13 estao disponiveis no arquivo ANOVA_Dois_Fatores.dta. A variavel dependente 
de natureza quantitativa denomina-se tempo e os fatores correspondem as variaveis companhia e dia_da__semana. 
Dessa forma, devemos digitar o seguinte comando: 

anova tempo companhia##dia_da_semana 

Os resultados estao representados na Figura 7.52 e sao semelhantes aos apresentados no software SPSS, o que 
nos permite concluir, ao nivel de confian£a de 95%, que apenas o fator dia_da_semana tern efeito significativo 
sobre a variavel tempo ( P = 0,003 < 0,05), e que nao existe intera^ao significativa entre os dois fatores analisados 
(P= 0,898 >0,05). 
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. anova tempo companhia##dia__da_semana 


Source | 

Number of obs 
Root MSE 
Partial SS 

= 4. 
df 

24 R-squared 

92866 Adj R-squared 

MS F 

= 0.8607 
= 0.6796 
Prob > F 

Model | 

1501.04167 

13 

115.464744 

4.75 

0.0092 

companhia | 

60.331761 

2 

30.1658805 

1.24 

0.3298 

dia_da_se~a 1 

1116.7505 

6 

186.125084 

7.66 

0.0028 

companhia#dia_da_se | 

37.189862 

5 

7.4379724 

0.31 

0.8982 

Residual | 

242.916667 

10 

24.2916667 



Total | 

1743.95833 

23 

75.8242754 




Figura 7.52 Resultados da ANOVA de dois fatores para o Exemplo 13 no Stata. 


7.8.2.2. ANOVA com mais de dois fatores 

A ANOVA de dois fatores pode ser generalizada para tres ou mais fatores. Segundo Maroco (2014), o 
torna-se muito complexo, ja que o efeito de multiplas intercedes pode confundir o efeito dos fatores. O 
generico com tres fatores apresentado pelo autor e: 

Y m =M+ a, +pj + y k + ap tj + ay ik +py jk + apy ijk +e m 

7.9. CONSIDERA0ES FINAIS 

Este capitulo apresentou os conceitos e objetivos dos testes de hipoteses parametricos, assim como os proce- 
dimentos gerais para a constru^ao de cada um deles. 

Foram estudados os principais tipos de testes e as situates em que cada um deles deve ser utilizado. Alem 
disso, foram estabelecidas as vantagens e desvantagens de cada teste, assim como suas suposi^oes. 

Estudamos os testes de normalidade (Kolmogorov-Smirnov, Shapiro-Wilk e Shapiro-Francia), os testes de 
homogeneidade de variancias (% 2 de Bartlett, C de Cochran, F m ,^ de Hartley e F de Levene), o teste t de Student 
para uma media populacional, para duas medias independentes e para duas medias emparelhadas, assim como a 
ANOVA e suas extensoes. 

Seja qual for o objetivo principal para a aplica^ao, os testes parametricos podem propiciar a colheita de bons 
e interessantes frutos de pesquisa uteis a tomada de decisao. O uso correto de cada teste, a partir da escolha cons- 
ciente do software de modelagem, deve sempre ser feito com base na teoria subjacente e sem desprezar a expe¬ 
rience e a intui^ao do pesquisador. 


modelo 

modelo 

(7.50) 


7.10. EXERCICIOS 

1) Em quais situa^oes sao aplicados os testes parametricos? E quais sao os pressupostos desses testes? 

2) Quais as vantagens e desvantagens dos testes parametricos? 

3) Quais os principais testes parametricos para verifica^ao de normalidade dos dados? Em quais situates deve- 
-se utilizar cada um deles? 

4) Quais os principais testes parametricos para verifica^ao de homogeneidade de variancias entre grupos? Em 
quais situa^oes deve-se utilizar cada um deles? 

5) Para testar uma unica media populacional, pode-se utilizar o teste z e o teste t de Student. Em quais casos cada 
um deles deve ser aplicado? 

6) Quais os principais testes de compara^ao de medias? Quais os pressupostos de cada teste? 
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7) Os dados de venda mensal de avioes ao longo do ultimo ano estao na tabela a seguir.Verifique se ha norma- 
lidade dos dados. Considere OC — 5%. 


Jan 

Fev 

Mar 

Abr 

Mai 

Jun 

Jul 

Ago 

Set 

Out 

Nov 

Dez 

48 

52 

50 

49 

47 

50 

51 

54 

39 

56 

52 

55 


8) Teste a normalidade dos dados de temperatura listados a seguir (a — 5%): 


12,5 

14,2 

13,4 

14,6 

12,7 

10,9 

16,5 

14,7 

11,2 

10,9 

12,1 

12,8 

13,8 

13,5 

13,2 

14,1 

15,5 

16,2 

10,8 

14,3 

12,8 

12,4 

11,4 

16,2 

14,3 

14,8 

14,6 

13,7 

13,5 

10,8 

10,4 

11,5 

11,9 

11,3 

14,2 

11,2 

13,4 

16,1 

13,5 

17,5 

16,2 

15,0 

14,2 

13,2 

12,4 

13,4 

12,7 

11,2 


9) A tabela a seguir apresenta as medias finais de dois alunos em nove disciplinas.Verifique se ha homogeneidade 
de variancias entre os alunos (OC — 5%). 


Alunol 

6,4 

5,8 

6,9 

5,4 

7,3 

8,2 

6,1 

5,5 

6,0 

Aluno2 

6,5 

7,0 

7,5 

6,5 

8,1 

9,0 

7,5 

6,5 

6,8 


10) Um fabricante de iogurtes desnatados afirma que a quantidade de calorias em cada pote e 60 cal. Para ve- 
rificar se essa informa^ao procede, uma amostra aleatoria com 36 potes e coletada, observando-se que a quanti¬ 
dade media de calorias e de 65 cal com desvio-padrao 3,5. Aplique o teste adequado e verifique se a afirma^ao 
do fabricante e verdadeira, considerando o nivel de significance de 5%. 

11) Deseja-se comparar o tempo medio de espera para atendimento (min) em 2 hospitais. Para isso, coletou-se 
uma amostra com 20 pacientes em cada hospital. Os dados estao disponiveis nas tabelas a seguir.Verifique se ha 
diferen^as entre os tempos medios de espera nos dois hospitais. Considere a = 1%. 


Hospital 1 


72 

58 

91 

88 

70 

76 

98 

101 

65 

73 

79 

82 

80 

91 

93 

88 

97 

83 

71 

74 


Hospital 2 


66 

40 

55 

70 

76 

61 

53 

50 

47 

61 

52 

48 

60 

72 

57 

70 

66 

55 

46 

51 


12) Trinta adolescentes com nivel de colesterol total acima do permitido foram submetidos a um tratamento que 
consistia em dieta e atividade fisica.As tabelas a seguir apresentam os indices de colesterol LDL (mg/dL) antes e 
depois do tratamento. Verifique se o tratamento foi eficaz (a = 5%). 


Antes do tratamento 


220 

212 

227 

234 

204 

209 

211 

245 

237 

250 

208 

224 

220 

218 

208 

205 

227 

207 

222 

213 

210 

234 

240 

227 

229 

224 

204 

210 

215 

228 
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Depois do tratamento 


195 

180 

200 

204 

180 

195 

200 

210 

205 

211 

175 

198 

195 

200 

190 

200 

222 

198 

201 

194 

190 

204 

230 

222 

209 

198 

195 

190 

201 

210 


13) Uma empresa aeronautica produz helicopteros civis e militares a partir de suas tres fabricas. As tabelas a se- 
guir apresentam as produces mensais de helicopteros nos ultimos 12 meses para cada fabrica. Verifique se ha di- 
feren^a entre as medias populacionais. Considere OC — 5%. 


Fabrica 1 


24 

26 

28 

22 

31 

25 

27 

28 

30 

21 

20 

24 


Fabrica 2 


28 

26 

24 

30 

24 

27 

25 

29 

30 

27 

26 

25 


Fabrica 3 


29 

25 

24 

26 

20 

22 

22 

27 

20 

26 

24 

25 








Testes Nao Parametricos 


A Matemdtico possui umo forqa moravilhoso copaz de nos 
fozer compreender muitos misterios de nossa fe. 

Sao Jeronimo 


Ao final deste capitulo, voce sera capaz de: 

• Identificar em quais situagoes devem ser aplicados os testes nao parametricos. 

• Perceber como os testes nao parametricos diferenciam-se dos parametricos. 

• Compreender as suposigoes inerentes aos testes de hipoteses nao parametricos. 

• Estudar os principals tipos de testes nao parametricos. 

• Saber quando utilizar cada urn dos testes nao parametricos. 

• Listar as vantagens e desvantagens dos testes nao parametricos. 

• Elaborar cada teste por meio do IBM SPSS Statistics Software® e do Stata Statistical Software® 

• Interpretar os resultados obtidos. 


8.1. introdu^Ao 

Conforme estudado no capitulo anterior, os testes de hipoteses se dividem em parametricos e nao parametri¬ 
cos. Os testes parametricos, aplicados para dados de natureza quantitativa, formulam hipoteses sobre os parame- 
tros da populagao, como a media populacional (/i), o desvio-padrao populacional (o), a variancia populacional 
(<7 2 ), a proporgao populacional (p ), etc. 

Os testes parametricos exigem suposigoes fortes em relagao a distribuigao dos dados. Por exemplo, em muitos 
casos, devemos supor que as amostras sejam retiradas de populagoes cujos dados apresentem distribuigao normal. 
Ou ainda,para testes de comparagao de duas medias populacionais emparelhadas ou k medias populacionais ( k > 3), 
as variancias populacionais devem ser homogeneas. 

Ja os testes nao parametricos podem formular hipoteses sobre caracteristicas qualitativas da populagao, po- 
dendo entao ser aplicados para dados de natureza qualitativa, em escala nominal ou ordinal. Como as suposigoes 
em relagao a distribuigao dos dados sao em menor numero e mais fracas do que as provas parametricas, sao tam- 
bem conhecidos como testes livres de distribuigao. 

Os testes nao parametricos sao uma alternativa aos parametricos quando suas hipoteses forem violadas. Por 
exigirem um numero menor de pressupostos, sao mais simples e de facil aplicagao, porem, menos robustos quan¬ 
do comparados aos testes parametricos. 

Em resumo, as principais vantagens dos testes nao parametricos sao: 

a) Podem ser aplicados em grande variedade de situagoes, pois nao exigem premissas rigidas sobre a popula¬ 
gao, como ocorre com os metodos parametricos. Em particular, os metodos nao parametricos nao exigem 
que as populagoes apresentem dados com distribuigao normal. 

b) Diferente dos metodos parametricos, os nao parametricos podem ser aplicados para dados qualitativos, em 
escala nominal e ordinal. 

c) Sao faceis de aplicar, pois envolvem calculos mais simples quando comparados aos metodos parametricos. 
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As principals desvantagens sao: 

a) No caso de dados quantitativos, como eles devem ser transformados em dados qualitativos para aplica^ao 
dos testes nao parametricos, perdemos muita informa^ao. 

b) Como os testes nao parametricos sao menos eficientes do que os parametricos, necessitamos de maior evi- 
dencia (uma amostra maior ou com diferen^as maiores) para rejeitar a hipotese nula. 

Assim, como os testes parametricos sao mais poderosos do que os nao parametricos, isto e, tern maior proba- 
bilidade de rejei^ao da hipotese nula quando esta realmente for falsa, eles devem ser escolhidos desde que todas 
as suposi^oes sejam satisfeitas. Por outro lado, os testes nao parametricos sao uma alternativa aos parametricos 
quando as hipoteses forem violadas ou para os casos em que as variaveis forem qualitativas. 

Os testes nao parametricos sao classificados de acordo com o nivel de mensura^ao das variaveis e o tamanho 
da amostra. Para uma unica amostra, estudaremos o teste binomial, o qui-quadrado 2 ) e o dos sinais. O teste bi¬ 
nomial e aplicado para variaveis de natureza binaria, o teste X 2 pode ser aplicado tanto para variaveis de natureza 
nominal quanto ordinal e o teste dos sinais e aplicado apenas para variaveis ordinais. 

Ja no caso de duas amostras emparelhadas, os principals testes sao o de McNemar, o dos sinais e o de Wilcoxon. 
Enquanto o teste de McNemar e aplicado para variaveis qualitativas que assumem apenas duas categorias (bina- 
rias), o teste dos sinais e o teste de Wilcoxon sao aplicados para variaveis ordinais. 

Considerando duas amostras independentes, podemos destacar o teste X 2 e o teste U de Mann-Whitney. 
Enquanto o X 2 pode ser aplicado para variaveis nominais ou ordinais, o teste U de Mann-Whitney considera 
apenas variaveis ordinais. 

Para k amostras emparelhadas (k > 3), temos o teste Q de Cochran que considera variaveis binarias e o teste 
de Friedman que considera variaveis ordinais. 

Por fim, no caso de mais de duas amostras independentes, estudaremos o teste X 2 P ara variaveis nominais ou 
ordinais e o teste de Kruskal-Wallis para variaveis ordinais. 

O Quadro 8.1 apresenta esta classifica^ao. 


Quadro 8.1 Classifica^ao dos testes estatisticos nao parametricos. 


Dimensao 

Nivel de Mensurafao 

Teste Nao Parametrico 


Binaria 

Binomial 

Uma amostra 

Nominal ou Ordinal 

X 2 


Ordinal 

Teste dos sinais 


Binaria 

Teste de McNemar 

Duas amostras emparelhadas 

Ordinal 

Teste dos sinais 

Teste de Wilcoxon 

Duas amostras 

Nominal ou Ordinal 

x 2 

independentes 

Ordinal 

U de Mann-Whitney 

k amostras emparelhadas 

Binaria 

Q de Cochran 

Ordinal 

Teste de Friedman 

k amostras independentes 

Nominal ou Ordinal 

X 2 

Ordinal 

Teste de Kruskal-Wallis 


Fonte: Adaptado de Favero et al. (2009) 


Os testes nao parametricos em que o nivel de mensura^ao das variaveis e ordinal tambem podem ser aplicados 
para variaveis quantitativas, mas so devem ser utilizados nesses casos quando as hipoteses dos testes parametricos 
forem violadas. 

8.2. TESTES PARA UMA AMOSTRA 

Neste caso, uma amostra aleatoria e extraida da populafao e testamos a hipotese de que os dados apresentam 
determinada caracteristica ou distribui?ao. Dentre os testes estatisticos nao parametricos para uma unica amostra, 
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podemos destacar o teste binomial, o teste X 2 e o teste dos sinais. O teste binomial e aplicado para dados de nature- 
za binaria, o teste X 2 P ara dados de natureza nominal ou ordinal e o teste dos sinais e aplicado para dados ordinais. 

8.2.1. Teste binomial 

O teste binomial e aplicado para uma amostra independente em que a variavel de interesse (. X) e binaria 
(dummy) ou dicotomica, isto e, tern apenas duas possibilidades de ocorrencia: sucesso ou fracasso. Por convenien- 
cia, costumamos denotar o resultado X = 1 como sucesso e o resultado X = 0 como fracasso. A probabilidade de 
sucesso, ao selecionarmos determinada observa^ao, e representada por p, e a probabilidade de fracasso, por q, de 
modo que: 

p[x = l]=p e p[x = o]=q = \-p 

Para um teste bilateral, devemos considerar as seguintes hipoteses: 

H o-P = Po 
H-i-P*Po 


O numero de sucessos (Y) ou o numero de resultados do tipo [X = 1] em uma sequencia de N observances, 
segundo Siegel e Castellan Jr. (2006), e: 

N 


1=1 


Para os auto res, em uma amostra de tamanho N, a probabilidade de obten^ao de k objetos em uma categoria 
e N— k objetos na outra categoria e dada por: 

(N\ 


P[Y=k] = 


ykj 


■p k .q N ~ k fe = 0,l ,—,N 


( 8 . 1 ) 


em que: 

p : probabilidade de sucesso; 
q : probabilidade de fracasso, sendo: 


N\ 

K k J k\(N — k)\ 


ATabela F a do apendice do livro fornece a probabilidade de P[Y = k] para diversos valores de N, k e p. 
Porem, quando testamos hipoteses, devemos utilizar a probabilidade de obten^ao de valores maiores ou iguais 
ao valor observado, de modo que: 

N 

P(Y>fe) = ^ 

i=k v ' (8.2) 


iV 

\ i i 


‘P l 


N-i 


Ou a probabilidade de obten^ao de valores menores ou iguais ao valor observado: 


p(Y<k )=jr 




■p -q 


N-i 


i=o V 1 J 


(8.3) 


De acordo com Siegel e Castellan Jr. (2006), quando p — q — Vi, em vez de calcularmos as probabilidades com 
base nas expressoes apresentadas, e mais conveniente utilizarmos aTabela F 2 do apendice do livro. Essa tabela for¬ 
nece as probabilidades unilaterais, sob a hipotese nula H 0 :p — 1/2, de obtermos valores tao ou mais extremos do 
que k, sendo k a menor das frequences observadas (P(Y< k)). Devido a simetria da distribui^ao binomial, quando 
p = 54, temos que P(Y> k) — P(Y < N— k). Um teste unilateral e usado quando predissermos qual das duas cate- 
gorias deve conter o menor numero de casos. Para um teste bilateral (quando a predi^ao simplesmente referir-se 
ao fato de que as duas frequencias serao diferentes), basta duplicarmos os valores da Tabela F 2 . 
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Esse valor final obtido denomina-se P-value que, conforme apresentado no Capitulo 7, corresponde a proba- 
bilidade (unilateral ou bilateral) associada ao valor observado da amostra. O P-value indica o menor nivel de sig¬ 
nificance observado que levaria a rejei^ao da hipotese nula. Assim, rejeitamos H 0 se P < OC. 

No caso de grandes amostras (N > 25), a distribui^ao amostral da variavel Y aproxima-se de uma distribui- 
£ao normal padrao, de modo que a probabilidade pode ser calculada pela seguinte estatistica: 

„ _\N-p-N-p\-0,5 

^cal - [— - 

jN-p-q ( 8 .4) 

em que p refere-se a estimativa amostral da proporgao de sucessos para que testemos H 0 . 

O valor de Zeal calculado por meio da expressao (8.4) deve ser comparado com o valor critico da distri- 
bui^ao normal padrao (Tabela E do apendice do livro). Essa tabela fornece os valores criticos de tal que 
P(Z ca i> z c ) = a. (para um teste unilateral a direita). Para um teste bilateral, temos que P(Z cd < — z c ) = (X/2 
= P(Z cal > z c ). 

Portanto, para um teste unilateral a direita, a hipotese nula e rejeitada se Z ca l > z c Ja para um teste bilateral, 
rejeitamos H 0 se Z M/ < ou Z cal > z r 

■ EXEMPLO 1 - APLICA^AO DO TESTE BINOMIAL PARA PEQUENAS AMOSTRAS 

Um grupo de 18 alunos que faz um curso intensivo de ingles e submetido a duas formas de aprendizagem. 
No final do curso, cada aluno escolhe o metodo de ensino de sua preferencia, como mostra a Tabela 8.1. Espera- 
se que nao exista diferen^a entre os metodos de ensino. Teste a hipotese nula ao nivel de significancia de 5%. 


Tabela 8.1 Frequences obtidas apos a escolha dos alunos. 


Eventos 

Metodo 1 

Metodo 2 

Total 

Frequencia 

11 

7 

18 

Proporgao 

0,611 

0,389 

1.0 


■ SOLU^AO 

Antes de iniciarmos o procedimento geral da constru^ao de testes de hipoteses, denotaremos alguns parame- 
tros para facilitar a compreensao. 

A escolha do metodo sera denotada como: X = 1 (metodo 1) e X = 0 (metodo 2). A probabilidade de escolha 
do metodo 1 e representada por P[X = 1] = p e do metodo 2 por P[X = 0] = q. O numero de sucessos (Y — k) 
corresponde ao total de resultados do tipo X— 1, de modo que k =11. 

Passo 1: O teste adequado e o binomial, ja que os dados estao categorizados em duas classes. 

Passo 2: Pela hipotese nula, nao existem diferen^as entre as probabilidades de escolha dos dois metodos, ou seja: 

H 0 : p ~ <1 = 1/2 
Hi: p*q 

Passo 3: O nivel de significancia a ser considerado e de 5%. 

Passo 4:Temos que N - 18, k = 11 ,p = 1/2 e q = 1/2. Devido a simetria da distribui^ao binomial, quando p 
~ 1/2, P(Y> k) = P(Y < N — k), isto e, P(Y> 11) = P(Y < 7). Desta forma, calcularemos P(Y < 7) por meio da 
expressao (8.3) e demonstraremos como essa probabilidade pode ser obtida diretamente da Tabela F 2 do apen¬ 
dice do livro. 

A probabilidade de que no maximo sete alunos escolham o metodo 2 e dada por: 


p(y<7)=p(y=o)+p(y=i)+--*+P(y=7) 
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P(Y = 0) = 


18! 

0!18! 




/O 18 


\2) 


= 3,815-E -06 


P(Y = 1) = 


18! 

1!17! 


(\ V 




1 Y 7 

- = 6,866-E -05 

V2 J 


P(Y = 7) = 


18! 

7!11! 


/iV ^^\ n 




= 0,121 


Portanto: 

P(Y< 7) = 3,815.E-06 + ... + 0,121 = 0,240 

Como p = 1/2, a probabilidade P(Y < 7) poderia ser obtida diretamente daTabela F 2 do apendice do livro. 
Para N = 18 e fe = 7 (menor frequencia observada), a probabilidade unilateral associada e P t = 0,240. 

Como estamos diante de um teste bilateral, esse valor deve ser dobrado (P — 2 ■ P-), de modo que a probabi¬ 
lidade bilateral associada seja P = 0,480. 

Obs.: No procedimento geral de testes de hipoteses, o passo 4 corresponde ao calculo da estatistica do teste com 
base na amostra. Ja o passo 5 determina a probabilidade associada ao valor da estatistica do teste obtido no passo 
4. No caso do teste binomial, o passo 4 ja calcula diretamente a probabilidade associada ao valor da estatistica. 

Passo 5: Decisao — como a probabilidade associada e maior do que a (P = 0,480 > 0,05), nao rejeitamos H 0 , o 
que nos permite concluir, ao nivel de confian^a de 95%, que nao existem diferenfas nas probabilidades de esco- 
lha do metodo 1 ou 2. 

■ EXEMPLO 2 - APLICA^AO DO TESTE BINOMIAL PARA GRANDES AMOSTRAS 

Refafa o exemplo anterior considerando os seguintes resultados: 


Tabela 8.2 Frequencias obtidas apos a escolha dos alunos. 


Eventos 

Metodo 1 

Metodo 2 

Total 

Frequencia 

18 

12 

30 

Proporgao 

0,6 

0,4 

1,0 


■ SOLLRAO 

Passo l:Vamos aplicar o teste binomial. 


Passo 2: Pela hipotese nula, nao existem diferen 9 as entre as probabilidades de escolha dos dois metodos, ou seja: 

H 0 : P ~ q— 1/2 

Hi :p*q 


Passo 3: O mvel de significancia a ser considerado e de 5%. 


Passo 4: Como N > 25, podemos considerar que a distribui^ao amostral da variavel Y aproxima-se de uma nor¬ 
mal padrao, de modo que a probabilidade pode ser calculada a partir da estatistica Z: 


v _|N-p-N-p|-0,5_|30-0,6-30-0,5|-0,5 

V 30 ' 0 - 5 -^ 5 


0,913 


Passo 5: A regiao critica de uma distribui^ao normal padrao (Tabela E do apendice do livro), para um teste bi¬ 
lateral em que a = 5%, esta ilustrada na Figura 8.1. 
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Figura 8.1 Regiao critica do Exemplo 2. 


Para um teste bilateral, cada uma das caudas corresponde a metade do nivel de significance a. 

Passo 6: Decisao - como o valor calculado nao pertence a regiao critica, isto e, — 1,96 < Z ca ,< 1 ,96, a hipotese 
nula nao e rejeitada, o que nos permite concluir, ao nivel de confian^a de 95%, que nao existem diferen^as nas 
probabilidades de escolha entre os metodos {p = q — Vi). 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com aTabela E do apendice do livro, a probabilidade unilateral associada a estatistica e Zeal 
— 0,913 eP a = 0,1762. Para um teste bilateral, essa probabilidade deve ser dobrada ( P-value = 0,3524). 

Passo 6: Decisao — como P > 0,05, nao rejeitamos H 0 . 


8.2.1.1. Resolugao do teste binomial por meio do software SPSS 

O Exemplo 1 sera resolvido por meio do IBM SPSS Statistics Software®. A reprodu^ao das imagens nesta se- 
$ao tern autoriza^ao da International Business Machines Corporation®. 

Os dados estao disponiveis no arquivo Teste_Binomial.sav. O procedimento para resolurpao do teste bino¬ 
mial pelo SPSS esta descrito a seguir. Selecionaremos Analyze —> Nonparametric Tests —> Legacy Dialogs 
—> Binomial.... 
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Figura 8.2 Procedimento para a elabora^ao do teste binomial no SPSS. 
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Vamos, inicialmente, inserir a variavel Metodo em Test Variable List. Em Test Proportion, devemos definir 
p = 0,50, ja que a probabilidade de sucesso e fracasso e a mesma. 



Figura 8.3 Sele^ao da variavel e da propor<;ao para o teste binomial. 


Por fim, clicamos em OK. Os resultados sao apresentados na Figura 8.4. 


Binomial Test 



Category 

N 

Observed 

Prop. 

Test Prop. 

Exact Sig. (2- 
tailed) 

Metodo Group 1 

1 

11 

,61 

,50 

,481 

Group 2 

2 

7 

,39 



Total 


18 

1,00 




Figura 8.4 Resultados do teste binomial para o Exemplo 1 no SPSS. 


A probabilidade associada para um teste bilateral e P = 0,481, semelhante ao valor calculado no Exemplo 
1. Como P-value e maior do que OC (0,481 > 0,05), nao rejeitamos H 0 , o que nos permite concluir, ao nivel de 
confian^a de 95%, que p = q = %. 

8.2.1.2. Resolu^ao do teste binomial por meio do software Stata 

O Exemplo 1 tambem sera resolvido por meio do Stata Statistical Software®. A reprodu^ao das imagens apresen- 
tadas nesta se^ao tern autoriza^ao da StataCorp LP®. Os dados estao dispomveis no arquivo Teste_Binomial.dta. 
A sintaxe do teste binomial no Stata e: 

bitest variavel* = #p 

em que o termo variavel* deve ser substituido pela variavel considerada na analise e #p pela probabilidade de 
sucesso especificada na hipotese nula. 

Para o Exemplo 1, a variavel estudada e denominada metodo e, pela hipotese nula, nao existem diferen^as na 
escolha entre os dois metodos, de modo que o comando a ser digitado e: 

bitest metodo = 0.5 

O resultado do teste binomial esta ilustrado na Figura 8.5. Podemos verificar que a probabilidade associada para 
um teste bilateral eP= 0,481, semelhante ao valor calculado no Exemplo 1 e tambem obtido por meio do software 
SPSS. Como P > 0,05, nao rejeitamos H 0 , o que nos permite concluir, ao nivel de confian^a de 95%, que p = q = 54. 
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. bitest metodo = 0 

5 



Variable | 

N 

Observed 

k Expected k Assumed p Observed p 

m | 

18 

7 

9 0.50000 0.38889 

Pr(k >= 7) 


= 0.881058 

(one-sided test) 

Pr(k <= 7) 


= 0.240341 

(one-sided test) 

Pr(k <= 7 or k >= 

ID 

= 0.480682 

(two-sided test) 


Figura 8.5 Resultados do teste binomial para o Exemplo 1 no Stata. 


8.2.2* Teste qui-quadrado (x 2 ) para uma amostra 

O teste X 2 apresentado nesta se^ao e uma extensao do teste binomial e e aplicado a uma unica amostra em 
que a variavel em estudo assume duas ou mais categorias. As variaveis podem ser de natureza nominal ou ordinal. 
O teste compara as frequences observadas com as frequences esperadas em cada categoria, e sera tambem utili— 
zado no Capitulo 11 quando estudarmos a tecnica exploratoria de analise de correspondence (naquela situa^ao, 
de maneira bivariada). 

O teste X 2 assume as seguintes hipoteses: 

H 0 : nao ha diferen^a significativa entre as frequencias observadas e esperadas 
Hp ha diferen^a significativa entre as frequencias observadas e esperadas 

A estatistica do teste, analoga a da expressao (3.1) do Capitulo 3, e dada por: 

2 y (Oj-Ej ) 2 

ltaI ^ E . (8.5) 

em que: 

Of quantidade de observa^oes na i-esima categoria; 

Ef frequencia esperada de observa^oes na f-esima categoria quando H 0 nao for rejeitada; 
k : quantidade de categorias. 

Os valores de jfc al seguem, aproximadamente, uma distribui^ao X 2 com V = k — 1 graus de liberdade. Os valores 
criticos da estatistica qui-quadrado (jff) sao apresentados naTabela D do apendice do livro, que fornece os valores 
criticos de ^ tal que P(jf ca i > jfy = OC (para um teste unilateral a direita). Para que a hipotese nula H 0 seja rejeitada, 
o valor da estatistica ^ cal deve pertencer a regiao critica (RC), isto e, X 2 ca i > & caso contrario, nao rejeitamos H 0 . 



Figura 8.6 Distribui^ao x 2 > com destaque para a regiao critica (RC) e de nao rejei^ao da hipotese nula (RN). 

O P-value (probabilidade associada ao valor da estatistica calculada ^ ca{ a partir da amostra) tambem pode ser 
obtido daTabela D. Nesse caso, rejeitamos H 0 se P < a. 

■ EXEMPLO 3 - APLICA^AO DO TESTE % 2 PARA UMA AMOSTRA 

Uma loja de doces caseiros deseja verificar se o numero de brigadeiros vendidos diariamente varia em fun- 
^ao do dia da semana. Para isso, uma amostra e coletada ao longo de uma semana, escolhida aleatoriamente, e 






Testes Nao Parametricos 253 


os resultados sao apresentados naTabela 8.3. Teste a hipotese de que as vendas independem do dia da semana. 
Considere a = 5%. 


Tabela 8.3 Frequencias observadas versus frequences esperadas. 


Eventos 

Dom 

Seg 

Ter 

Qua 

Qui 

Sex 

Sab 

Frequencias observadas 

35 

24 

27 

32 

25 

36 

31 

Frequencias esperadas 

30 

30 

30 

30 

30 

30 

30 


■ SOLU^AO 

Passo 1: Pela teste adequado para comparar as frequencias observadas com as esperadas de uma amostra com mais 
de duas categorias eo^ para uma unica amostra. 


Passo 2: Pela hipotese nula, nao existem diferengas significativas entre as vendas observadas e esperadas para cada 
dia da semana; ja pela hipotese alternativa, ha diferenga em pelo menos um dia da semana: 

H 0 : O, = E ( 

H 1 :O i ^E i 


Passo 3: O nivel de significance a ser considerado e de 5%. 

Passo 4: O valor da estatistica do teste e dado por: 

..2 _ Y (0-E t f _ (35-30) 2 (24-30) 2 (31-30) 2 _ c 

Xcai-Zj p ~ 30 + + "' + ” 4 ’ WJ 


1=1 


30 


30 


Passo 5: A regiao critica do teste % 2 , considerando OC = 5% e V = 6 graus de liberdade, esta representada na Figura 8.7. 



Figura 8.7 Regiao critica do Exemplo 3. 


Passo 6: Decisao — como o valor calculado nao pertence a regiao critica, isto e,^ a/ < 12,592, a hipotese nula nao 
e rejeitada, o que nos permite concluir, ao nivel de confian^a de 95%, que a quantidade de brigadeiros vendidos 
diariamente nao varia em fun^ao do dia da semana. 


Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 da constru^ao dos testes de hi- 
poteses serao: 

Passo 5: De acordo com a Tabela D do apendice do livro,para V = 6 graus de liberdade, a probabilidade associada 
ao valor da estatistica^/ = 4,533 ( P-value ) esta entre 0,1 e 0,9. 

Passo 6: Decisao — como P > 0,05, nao rejeitamos a hipotese nula. 
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8.2.2.1. Resol ugao do teste x 2 para uma amostra por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tem autoriza^ao da International Business Machines Corporation®. 
Os dados do Exemplo 3 estao disponiveis no arquivo Qui-Quadrado_Uma_Amostra.sav. O procedi- 
mento para aplica^ao do teste X 2 no SPSS esta descrito a seguir. Vamos, inicialmente, clicar em Analyze —> 
Nonparametric Tests —> Legacy Dialogs —> Chi-Square..., como mostra a Figura 8.8. 
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Figura 8.8 Procedimento para a elabora^ao do teste x 2 no SPSS. 


Na sequencia, devemos inserir a variavel Dia_semana em Test Variable List. A variavel em estudo apresenta 
sete categorias. As op^oes Get from data e Use specified range (Lower = 1 e Upper = 7) em Expected 
Range geram os mesmos resultados. As frequences esperadas para as sete categorias sao iguais; dessa forma, de¬ 
vemos selecionar a op^ao All categories equal em Expected Values, conforme mostra a Figura 8.9. 
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Por fim, podemos clicar em OK e obter os resultados do teste X 2 -> como mostra a Figura 8.10. 


Test Statistics 



Dia__semana 

Chi-Square 

4,533 a 

df 

6 

Asymp. Sig. 

,605 


a. 0 cells (,0%) have 
expected frequencies 
less than 5. The 
minimum expected cell 
frequency is 30,0. 

Figura 8.10 Resultados do teste % 2 para o Exemplo 3 no SPSS. 

O valor da estatistica X 2 e, portanto, 4,533, semelhante ao valor calculado no Exemplo 3. Como o P-value = 
0,605 > 0,05 (vimos no Exemplo 3 que 0,1 < P < 0,9), nao rejeitamos H 0 , o que nos permite concluir, ao nivel 
de confian^a de 95%, que as vendas independem do dia da semana. 

8.2.2.2. Resoluqao do teste x 2 para uma amostra por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se^ao tern autoriza^ao da StataCorp LP®. 

Os dados do Exemplo 3 estao dispomveis no arquivo Qui-Quadrado_Uma_Amostra.dta. A variavel em 
estudo denomina-se dia_da__semana. 

O teste X 2 P ara uma amostra no Stata pode ser obtido a partir do comando csgof (chi-square goodness of fit) 
que permite comparar a distribui^ao de frequences observadas com as esperadas de determinada variavel cate- 
gorica com mais de duas categorias. 

Para que esse comando seja utilizado, devemos inicialmente digitar: 

findit csgof 

e instala-lo no link casqof from http://www.ats.ucla.edu/stat/stata/ado/analysis . Feito isso,pode¬ 
mos digitar o seguinte comando: 

csgof dia_da_semana 

O resultado esta ilustrado na Figura 8.11. Podemos verificar que o resultado do teste e semelhante ao calcu¬ 
lado no Exemplo 3 e no software SPSS, assim como a probabilidade associada a estatistica. 


. csgof dia_da_semana 


+ - 

| dia_da~a 

expperc 

expfreq 

obsfreq 

-+ 

1 

| domingo 

14.28571 


30 

35 

1 

| segunda 

14.28571 


30 

24 

1 

| terga 

14.28571 


30 

27 

1 

| quarta 

14.28571 


30 

32 

1 

1 quinta 

14.28571 


30 

25 

1 

| sexta 

14.28571 


30 

36 

1 

| sabado 

14.28571 


30 

31 

1 

+ 





* + 

chisq(6) is 4. 

53, p = .6049 





Figura 8.11 Resultados do teste x 2 para o Exemplo 3 no Stata. 

8.2.3. Teste dos sinais para uma amostra 

O teste dos sinais e uma alternativa ao teste t para uma unica amostra aleatoria quando a distribui^ao dos da¬ 
dos da popula^ao nao for aderente a distribui^ao normal. A unica pressuposi^ao exigida pelo teste dos sinais e 
que a distribui^ao da variavel seja continua. 

O teste dos sinais e baseado na mediana da populagao (JJ). A probabilidade de obtermos um valor amostral in¬ 
ferior a mediana e de obtermos um valor amostral superior a mediana sao iguais (p = V 2 ). A hipotese nula do teste 
e de que jJi seja igual a determinado valor especificado pelo investigador (jHq ). Para um teste bilateral, temos que: 
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H 0 : Po 

Hi : /X ^ l^o 

Os dados quantitativos sao convertidos para sinais de (+) ou de (-), isto e, valores superiores a mediana (JJ^) 
passam a ser representados com sinal de (+) e valores inferiores a /X 0 com sinal de (-). Dados com valores iguais 
a /X 0 sao excluidos da amostra. O teste dos sinais e aplicado, portanto, para dados de natureza ordinal, e oferece 
baixo poder ao pesquisador, ja que essa conversao faz com que ocorra consideravel perda de informa^ao em re- 
la^ao aos dados originais. 

Pequenas amostras 

Denotemos por N o numero de sinais positivos e negativos (tamanho da amostra descontando os empates) e 
k o numero de sinais que corresponde a menor frequencia. 

Para pequenas amostras (N < 25), faremos o uso do teste binomial com p — Vi t calcularemos P(Y < k). Essa 
probabilidade pode ser obtida diretamente da Tabela F 2 do apendice do livro. 

Grandes amostras 

Quando N > 25, a distribui^ao binomial aproxima-se da distribui^ao normal. O valor de Z e dado por: 

z JX±W)-Nn ( 8 . 6 ) 

0,5 -VN 

em que X corresponde a menor ou maior frequencia. Se X representar a menor frequencia, devemos calcular X 
+ 0,5. Por outro lado, se X representar a maior frequencia, devemos calcular X- 0,5. 

■ EXEMPLO 4 - APLICA^AO DO TESTE DOS SINAIS PARA UMA UNICA AMOSTRA 

Estima-se que a idade mediana de aposentadoria em determinada cidade brasileira seja de 65 anos. Uma 
amostra aleatoria de 20 aposentados e extraida da popula^ao e os resultados estao na Tabela 8.4.Teste a hipotese 
nula de que /X = 65, ao mvel de significance de 10%. 


Tabela 8.4 Idade de aposentadoria. 


59 

62 

66 

37 

60 

64 

66 

70 

72 

61 

64 

66 

68 

72 

78 

93 

79 

65 

67 

59 


■ soLugAo 

Passo 1: Como os dados nao seguem distribui^ao normal, o teste adequado para testar a mediana da popula^ao 
e o dos sinais. 

Passo 2: As hipoteses do teste sao: 

H 0 : - 65 

65 

Passo 3: O nivel de significancia a ser considerado e de 10%. 

Passo 4: Calcularemos P(Y < k). 

Para facilitar a compreensao, ordenaremos os dados da Tabela 8.4 de forma crescente, como mostra a Tabela 8.5. 


Tabela 8.5 Dados da Tabela 8.4 ordenados de forma crescente. 


37 

59 

59 

60 

61 

62 

64 

64 

65 

66 

66 

66 

67 

68 

70 

72 

72 

78 

79 

93 


Excluindo o valor 65 (empate), temos que o numero de sinais (-) e 8, o numero de sinais (+) e 11 e N = 19. 
A partir da Tabela F 2 do apendice do livro, para N=19,fe = 8ep=l/2, a probabilidade unilateral associada 
e P x = 0,324. Como estamos diante de um teste bilateral, esse valor deve ser dobrado, de modo que a probabili¬ 
dade bilateral associada seja de 0,648 ( P-value ). 
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Passo 5: Decisao - como P-value e maior do que a (0,648 > 0,10), nao rejeitamos H 0 , fato que nos permite 
concluir, ao nivel de confian^a de 90%, que jl — 65. 

8.2.3.1. Resolugao do teste dos sinais para uma amostra por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tem autoriza^ao da International Business Machines Corporation®. 

O SPSS disponibiliza o teste dos sinais apenas para duas amostras relacionadas (2 Related Samples). Assim, para uti- 
lizarmos o teste para uma unica amostra, devemos criar nova variavel com n valores (tamanho da amostra incluindo 
empates), todos iguais a JUq. Os dados do Exemplo 4 estao disponiveis no arquivo Teste_Sinais_Uma_Amostra.sav. 

O procedimento para aplicacao do teste dos sinais no SPSS esta ilustrado a seguir. Inicialmente, devemos clicar em 
Analyze —> Nonparametric Tests —» Legacy Dialogs —> 2 Related Samples..., como mostra a Figura 8.12. 
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Figura 8.12 Procedimento para a elabora^ao do teste dos sinais no SPSS. 

Na sequencia, devemos inserir a variavel 1 ( Idade_pop ) e a variavel 2 (. ldade_amostra) em Test Pairs. Marcaremos 
tambem a op^ao referente ao teste dos sinais (Sign) em Test Type, como mostra a Figura 8.13. 



Figura 8.13 Sele^ao das variaveis e do teste dos sinais. 
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Na sequencia, podemos clicar em OK para a obtengao dos resultados do teste dos sinais, conforme mostram 
as Figuras 8.14 e 8.15. 


Frequencies 




N 

Idade amostra - 

Negative Differences 3 

8 

ldade_pop 

Positive Differences 5 

11 


Ties c 

1 


Total 

20 


a. ldade_amostra < ldade_pop 

b. ldade_amostra > ldade_pop 

c. ldade_amostra = ldade_pop 

Figura 8.14: Frequencias observadas. 


Test Statistics 13 



ldade_ 
amostra - 
ldade_pop 

Exact Sig. (2-tailed) 

,648 a 


a. Binomial distribution used. 

b. Sign Test 


Figura 8.15 Estatistica do teste dos sinais para o Exemplo 4 no SPSS. 

A Figura 8.14 apresenta as frequencias de sinais negativos e positivos, o numero total de empates e a fre- 
quencia total. 

A Figura 8.15 apresenta a probabilidade associada para um teste bilateral, que e semelhante ao valor encontra- 
do no Exemplo 4. Como P = 0,648 > 0,10, nao rejeitamos a hipotese nula, o que nos permite concluir, ao nivel 
de confian^a de 90%, que a idade mediana de aposentadoria e de 65 anos. 

8.23.2. Resoluqao do teste dos sinais para uma amostra por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se^ao tern autoriza^ao da StataCorp LP®. 

Diferente do software SPSS, o Stata disponibiliza o teste dos sinais para uma amostra. O teste dos sinais para 
uma unica amostra e o teste para duas amostras emparelhadas no Stata podem ser obtidos a partir do comando 

sign test. 

A sintaxe do teste para uma amostra e: 

signtest variavel* = # 

em que o termo variavel* deve ser substituido pela variavel considerada na analise e # pelo valor da mediana 
populacional a ser testada. 

Os dados do Exemplo 4 estao disponiveis no arquivo Teste_Sinais_Uma_Amostra.dta. A variavel ana- 
lisada denomina-se idade e o objetivo e verificarmos se a idade mediana de aposentadoria e igual a 65 anos. O 
comando a ser digitado e, portanto: 

signtest idade = 65 

O resultado do teste esta ilustrado na Figura 8.16. Analogamente aos resultados apresentados no Exemplo 4 
e tambem gerados no SPSS, o numero de sinais positivos e 11, o numero de sinais negativos e 8 e a probabilida¬ 
de associada para um teste bilateral e 0,648. Como P > 0,10, nao rejeitamos a hipotese nula, o que nos permite 
concluir, ao nivel de confian^a de 90%, que a idade mediana de aposentadoria e de 65 anos. 
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. signtest idade = 65 


Sign test 


sign | observed expected 

• -- 1 -—-—- 

positive | 11 9.5 

negative | 8 9.5 

zero | 1 1 

- + - 

all | 20 20 


One-sided tests: 

Ho: median of idade - 65 = 0 vs. 

Ha: median of idade - 65 > 0 
Pr(#positive >= 11) = 

Binomial(n = 19, x >= 11, p = 0.5) 


0.3238 


Ho: 

Ha: 


median of idade - 65 = 0 vs. 
median of idade - 65 < 0 
Pr(#negative >= 8) = 

Binomial(n = 19, x >= 8, p = 0.5) 


0.8204 


Two-sided test: 

Ho: median of idade - 65 = 0 vs. 

Ha: median of idade - 65 != 0 

Pr(#positive >= 11 or #negative >= 11) = 

min(l, 2*Binomial(n =19, x >= 11, p = 0.5)) 


0.6476 


Figura 8.16 Resultados do teste dos sinais para o Exemplo 4 no Stata. 


8.3. TESTES PARA DUAS AMOSTRAS EMPARELHADAS 

Esses testes investigam se duas amostras estao, de alguma forma, relacionadas entre si. Os exemplos mais co- 
muns analisam uma situa^ao antes e depois de um acontecimento. Estudaremos o teste de McNemar para vari¬ 
aveis binarias e os testes dos sinais e de Wilcoxon para variaveis de natureza ordinal. 

8.3.1. Teste de McNemar 

O teste de McNemar e aplicado para testar a significance de mudan^as em duas amostras relacionadas a par- 
tir de variaveis qualitativas ou categoricas que assumem apenas duas categorias (variaveis binarias). O objetivo 
do teste e verificar se ha mudan^as significativas antes e depois da ocorrencia de determinado evento. Para isto, 
utilizaremos uma tabela de contingencia 2x2, como mostra aTabela 8.6. 


Tabela 8.6 Tabela de contingencia 2x2. 



Depois 

Antes 

+ 

- 

+ 

A 

B 

- 

C 

D 


De acordo com Siegel e Castellan Jr. (2006), os sinais (+) e (-) sao utilizados para representar as possiveis mu- 
dan^as nas respostas antes e depois. As frequences de cada ocorrencia estao representadas nas respectivas celulas da 
Tabela 8.6. 

Por exemplo, se houver mudan^as da primeira resposta (+) para a segunda resposta (-), o resultado sera con- 
tabilizado na celula superior direita, de modo que B representa o numero total de observa^oes que apresentam 
mudan^a no comportamento de (+) para (-). 

Analogamente, se houver mudan^as da primeira resposta (-) para a segunda resposta (+), o resultado sera con- 
tabilizado na celula inferior esquerda, de modo que C representa o numero total de observa^oes que apresentam 
mudan^a no comportamento de (-) para (+). 

Por outro lado, enquanto A representa o numero total de observa^oes que permanecem com a mesma respos¬ 
ta (+) antes e depois, D representa o numero total de observa^oes com a mesma resposta (-) nos dois perfodos. 

Desse modo, o numero total de individuos que mudam de resposta pode ser representado por B + C. 

Pela hipotese nula do teste, o numero total de mudan^as em cada dire^ao e igualmente provavel, isto e: 
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H 0 : P(B -> Q = P(C -> B) 
Hp. P(B -> Q * P(C -> B) 


A estatistica de McNemar, segundo Siegel e Castellan Jr. (2006), e calculada com base na estatistica qui-qua- 
drado (% 2 ) apresentada na expressao (8.5), ou seja: 


o y (o,.-£,) 2 _ (B-(B+C)/2) 2 (C-(b+C)/2) 2 _ (B-C) 2 , 

" E { (B+C)/2 (B+C)/2 B+C Xl 


(8.7) 


De acordo com os mesmos autores, um fator de corre^ao deve ser utilizado para que uma distribui^ao X 2 
continua aproxime-se de uma distribui^ao X 2 discreta, de modo que: 



(|b-c|-i) 2 

B + C 


com 1 grau de liberdade 


( 8 . 8 ) 


O valor calculado deve ser comparado com o valor critico da distribui^ao X 2 (Tabela D do apendice do livro). 
Essa tabela fornece os valores criticos de X 2 tal que P(jfi a i > jfy = OL (para um teste unilateral a direita). Se o valor 
da estatistica pertencer a regiao critica, isto e, se jf cat > jfc, rejeitamos H 0 ; caso contrario, nao devemos rejeitar H 0 . 

A probabilidade associada a estatistica %* cat ( P-value) tambem pode ser obtida a partir da Tabela D. Nesse caso, 
a hipotese nula e rejeitada s e P< OC; caso contrario, nao rejeitamos H 0 . 


■ EXEMPLO 5 - APLICA^AO DO TESTE DE MCNEMAR 

Estava para ser votado no Senado o fim da aposentadoria integral para os servidores publicos federais. Com 
o objetivo de verificar se essa medida traria alguma mudan^a na procura por concursos publicos, foi feita uma 
entrevista com um grupo de 60 trabalhadores antes e depois da reforma, para que eles indicassem sua preferen¬ 
ce em trabalhar em uma institui^ao particular ou publica. Os resultados estao na Tabela 8.7. Teste a hipotese de 
que nao houve mudan^a significativa nas respostas dos trabalhadores antes e depois da reforma previdenciaria. 
Considere OC = 5%. 


Tabela 8.7 Tabela de contingencia. 



Depois da reforma 

Antes da reforma 

Particular 

Publica 

Particular 

22 

3 

Publica 

21 

14 


■ SOLU^AO 

Passo 1: O teste adequado para testar a significance de mudan^as do tipo antes e depois em duas amostras rela- 
cionadas, aplicado a variaveis nominais ou categoricas, e o teste de McNemar. 

Passo 2: Pela hipotese nula, a reforma nao seria eficiente para mudar as preferences em uma dire^ao particular. 
Em outras palavras, entre aqueles trabalhadores que mudaram suas preferences, a probabilidade de que eles tro- 
quem a preference de particular para publica depois da reforma e igual a probabilidade de que eles troquem de 
publica para particular. Ou seja: 

H 0 : P(Particular —> Publica) = P(Publica —> Particular) 

P(Particular —> Publica) ^ P(Publica —> Particular) 

Passo 3: O nivel de significance a ser considerado e de 5%. 

Passo 4: O valor da estatistica teste, de acordo com a expressao (8.7), e: 


2 (|B-C|) 2 (|3-2l|) 2 

A/cal ip. ^ o i oi 


= 13,5 com V — 1 


B + C 


3 + 21 
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Se utilizarmos o fator de corre^ao, o valor da estatistica a partir da expressao (8.8) passa a ser: 

(Ib-cI-i ) 2 (I3-21I-1) 2 

- !—- = ^ - ! —— = 12,042 com v = 1 

B+C 3+21 

Passo 5: 0 valor do qui-quadrado critico (jfy, obtido a partir daTabela D do apendice do livro, considerando OC 
= 5% e V = 1 grau de liberdade, e 3,841. 

Passo 6: Decisao - como o valor calculado pertence a regiao critica, isto e, ^ caX > 3,841, rejeitamos a hipotese 
nula, o que nos permite concluir, ao rrivel de confian^a de 95%, que houve mudan^as significativas na escolha de 
se trabalhar em uma institui^ao particular ou publica apos a reforma previdenciaria. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com aTabela D do apendice do livro, para V = 1 grau de liberdade, a probabilidade asso- 
ciada a estatistica j^ caX — 12,042 ou 13,5 ( P-value ) e inferior a 0,005 (uma probabilidade de 0,005 esta associada a 
estatistica^/ = 7,879). 

Passo 6: Decisao — como P < 0,05, devemos rejeitar H 0 . 

8.3.1.1. Resoluqao do teste de McNemar por meio do software SPSS 

O Exemplo 5 sera resolvido por meio do software SPSS. A reprodu^ao das imagens nesta se^ao tern autori- 
za^ao da International Business Machines Corporation®. 

Os dados estao disponiveis no arquivo Teste_McNemar.sav. O procedimento para aplica^ao do teste de 
McNemar no SPSS esta apresentado a seguir.Vamos clicar em Analyze —> Nonparametric Tests —> Legacy 
Dialogs 2 Related Samples..., conforme mostra a Figura 8.17. 
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Figure 8.17 Procedimento para a elabora^ao do teste de McNemar no SPSS. 
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Na sequencia, devemos inserir a variavel 1 (Antes) e a variavel 2 ( Depois) em Test Pairs.Vamos selecionar a 
op<;ao do teste de McNemar em Test Type, como mostra a Figura 8.18. 


Jb Antes 


Jb Depots 


Test Pairs: 


■Pair 

Vanablel 

Variaf3^e2 


f-mmm 

Jb [Depois] 


■■■■ 



■ 



T est Type-——■—— 

D Wilcox o n 
O Sign 
H McNemar 
□ Marginal Homogeneity 


Figura 8.18 Selegao das variaveis e do teste de McNemar. 


Por fim, devemos clicar em OK para obter as Figuras 8.19 e 8.20. A Figura 8.19 apresenta as frequencias ob- 
servadas antes e depois da reforma (tabela de contingencia). O resultado do teste de McNemar e apresentado na 
Figura 8.20. 

Antes & Depois 



Depois | 


Particular 

Publica 

1 Particular 







Figura 8.19 Frequencias observadas. 


Test Statistics 6 



Antes & 


Depois 

N 

60 

Exact Sig. (2-tailed) 

,000 a 


a. Binomial distribution used. 

b. McNemar Test 


Figura 8.20 Significancia estatistica do teste de McNemar para o Exemplo 5 no SPSS. 

De acordo com a Figura 8.20, o nivel de significancia observado do teste de McNemar e 0,000, valor infe¬ 
rior a 5%, de modo que a hipotese nula e rejeitada. Portanto, podemos concluir, com 95% de nivel de confian^a, 
que houve uma mudan^a significativa na escolha de se trabalhar em uma institui<;ao publica ou particular apos a 
reforma previdenciaria. 

8.3.1.2. Resoluqao do teste de McNemar por meio do software Stata 

O Exemplo 5 tambem sera resolvido por meio do software Stata. A reprodu$ao das imagens apresentadas nesta 
se^ao tern autoriza$ao da StataCorp LP© Os dados estao disponiveis no arquivo Teste_McNemar.dta. 
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O teste de McNemar pode ser elaborado no Stata a partir do comando mcc seguido das variaveis empare- 
lhadas. Para o nosso exemplo, as variaveis emparelhadas denominam-se antes e depois, de modo que o comando 
a ser digitado e: 

mcc antes depois 

O resultado do teste de McNemar esta ilustrado na Figura 8.21. Podemos verificar que o valor da estatistica e 
13,5, semelhante ao valor calculado pela expressao (8.7) sem o fator de corregao. O nivel de significance obser- 
vado do teste e 0,000, inferior a 5%, o que nos permite concluir, ao nivel de confianga de 95%, que houve uma 
mudanga significativa antes e depois da reforma. 

O resultado do teste de McNemar tambem poderia ter sido obtido por meio do comando mcci 14 21 3 22. 


. mcc antes depois 




1 

Controls 

1 


Cases | 

Exposed 

Unexposed | 

Total 





Exposed | 

14 

21 I 

35 

Unexposed 1 

3 

22 | 

25 





Total | 

17 

43 | 

60 

McNemar's chi2(l) = 

13.50 

Prob > chi2 

= 0.0002 

1 Exact McNemar significance probability 

= 0.0003 

1 Proportion with factor 



Cases 

.5833333 



Controls 

.2833333 

[95% Conf. 

Interval] 

difference 

.3 

.142452 

.457548 

ratio 

2.058824 

1.388881 

3.051921 

rel. diff. 

.4186047 

.2483414 

.5888679 

odds ratio 

7 

2.090126 

36.65157 (exact) 


Figura 8.21 Resultados do teste de McNemar para o Exemplo 5 no Stata. 


8.3.2. Teste dos sinais para duas amostras emparelhadas 

O teste dos sinais tambem pode ser aplicado para duas amostras emparelhadas. Nesse caso, o sinal e dado pela 
diferenga entre os pares, isto e, se a diferen^a resultar em um numero positivo, cada par de valores e substituido 
por um sinal de (+). Por outro lado, se o resultado da diferenga for negativo, cada par de valores e substituido por 
um sinal de (-). Em caso de empate, os dados sao excluidos da amostra. 

Analogamente ao teste dos sinais para uma unica amostra, o teste dos sinais apresentado nesta se^ao tambem e 
uma alternativa ao teste t para a compara^ao de duas amostras relacionadas quando a distribuigao dos dados nao 
for aderente a distribui^ao normal. Os dados quantitativos sao, nesta situagao, transformados em dados ordinais. 
O teste dos sinais e, portanto, menos poderoso que o teste t , pois utiliza como informa^ao apenas o sinal da di- 
feren^a entre os pares. 

Pela hipotese nula, a mediana da popula^ao das diferengas (jLL d ) e zero. Para um teste bilateral, temos, portanto, 
que: 


H 0 :^ = 0 


Em outras palavras, testamos a hipotese de que nao ha diferen^as entre as duas amostras (as amostras sao pro- 
venientes de popula^oes com a mesma mediana e distribui^ao contmua), isto e, o numero de sinais (+) e igual 
ao numero de sinais (-). 

O mesmo procedimento apresentado na se^ao 8.2.3 para uma unica amostra sera utilizado para o calculo da 
estatistica dos sinais no caso de duas amostras emparelhadas. 

Pequenas amostras 

Denotamos por N o numero de sinais positivos e negativos (tamanho da amostra descontando os empates) 
e k o numero de sinais que corresponde a menor frequencia. Se N < 25, faremos uso do teste binomial com 
p — \4 e calcularemos P(Y<k). Essa probabilidade pode ser obtida diretamente daTabela F 2 do apendice do livro. 
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Grandes amostras 

Quando N > 25, a distribui^ao binomial aproxima-se da distribui^ao normal, e o valor de Z passa a ser dado 
pela expressao (8.6), reproduzida novamente a seguir: 

Z = (X±0,5)-N/2 
0,5-VN 

em que X corresponde a menor ou maior frequencia. Se X representar a menor frequencia, devemos utilizar X 
+ 0,5. Por outro lado, se X representar a maior frequencia, devemos utilizar X— 0,5. 

■ EXEMPLO 6 - APLICACAO DO TESTE DOS SINAIS PARA DUAS AMOSTRAS EMPARELHADAS 

Um grupo de 30 operarios e submetido a um treinamento com o objetivo de melhorar a produtividade. O 
resultado, em numero medio de pe^as produzidas por hora para cada funcionario, antes e depois do treinamento, 
e apresentado naTabela 8.8.Teste a hipotese nula de que nao ocorrem altera^oes na produtividade antes e depois 
do treinamento. Considere a = 5%. 


Tabela 8.8 Produtividade antes e depois do treinamento. 


Antes 

Depois 

Sinai da diferenfa 

36 

40 

+ 

39 

41 

4- 

27 

29 

+ 

41 

45 

+ 

40 

39 

- 

44 

42 

- 

38 

39 

+ 

42 

40 

- 

40 

42 

+ 

43 

45 

+ 

37 

35 

- 

41 

40 

- 

38 

38 

0 

45 

43 

- 

40 

40 

0 

39 

42 

+ 

38 

41 

+ 

39 

39 

0 

41 

40 

- 

36 

38 

+ 

38 

36 

- 

40 

38 

- 

36 

35 

- 

40 

42 

+ 

40 

41 

+ 

38 

40 

+ 

37 

39 

+ 

40 

42 

+ 

38 

36 

- 

40 

40 

0 
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■ solu?ao 

Passo 1: Como os dados nao seguem distribui^ao normal, o teste dos sinais pode ser uma alternativa ao teste t 
para duas amostras emparelhadas. 

Passo 2: A hipotese nula assume que nao ha diferen^a na produtividade antes e depois do treinamento, ou seja: 


H 0 :^ = O 


Passo 3: O nivel de significancia a ser considerado e de 5%. 


Passo 4: Como N > 25, a distxibuicao binomial aproxima-se de uma normal, e o valor de Z e dado por: 


(X±0,5)-N/2 
0,5 -Vn 


(ll+0,5)-13 

0,5-726 


-0,588 


Passo 5: Com o auxilio da tabela de distribui^ao normal padrao (Tabela E do apendice do livro), devemos de- 
terminar a regiao critica (RC) para um teste bilateral, conforme mostra a Figura 8.22. 


f A 



v_ j 


Figura 8.22 Regiao critica do Exemplo 6. 

Passo 6: Decisao — como o valor calculado nao pertence a regiao critica, isto e, —1,96 < ,96, a hipotese 

nula nao e rejeitada, o que nos permite concluir, ao nivel de confian^a de 95%, que nao existe diferenga na pro¬ 
dutividade antes e depois do treinamento. 

Se, em vez de compararmos o valor calculado com o valor critico da distribui^ao normal padrao, utilizarmos 
o calculo do P-value, os passos 5 e 6 serao: 

Passo 5: De acordo com a Tabela E do apendice do livro, a probabilidade unilateral associada a estatistica Zeal ~ 
-0,59 e P 1 = 0,278. Para um teste bilateral, essa probabilidade deve ser dobrada ( P-value = 0,556). 

Passo 6: Decisao - como P > 0,05, rejeitamos a hipotese nula. 

83.2 . 7 . Resolu^ao do teste dos sinais para duas amostras emparelhadas por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tern autoriza^ao da International Business Machines Corporation®. 
Os dados do Exemplo 6 estao disponiveis no arquivo Teste_Sinais_Duas_Amostras_Emparelhadas.sav. 
O procedimento para a elabora^ao do teste dos sinais para duas amostras emparelhadas no SPSS esta ilustrado a 
seguir. Devemos clicar em Analyze —» Nonparametric Tests —> Legacy Dialogs —> 2 Related Samples..., 
como mostra a Figura 8.23. 
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Figura 8.23 Procedimento para a elaborated do teste dos sinais no SPSS. 


Na sequencia, vamos inserir a variavel 1 (Antes) e a variavel 2 ( Depois ) em Test Pairs. Marcaremos a op^ao 
referente ao teste dos sinais (Sign) em Test Type, como mostra a Figura 8.24. 


Antes 
^ Depois 



Test Pairs: 


‘Pair 

Variablel 

Variables 

1 

& fAntesJ 

& Pepois] 

2 




-TestType--- 

0 Wiicoxon 
(H Sign 
0 McNemar 
0 Marginal Homogeneity 


LaeaJ 

[ * j [ Options... ] 
0 


[ OK ][ Paste ][Reset](cancel)( Help ) 


Figura 8.24 Sele^ao das variaveis e do teste dos sinais. 


Por fim, clicamos em OK e obtemos os resultados do teste dos sinais para duas amostras emparelhadas (Figuras 
8.25 e 8.26). 


Frequencies 



N 

Depois - Antes Negative Differences 3 

11 

Positive Differences 15 

15 

Ties c 

4 

Total 

30 


a. Depois < Antes 

b. Depois > Antes 

c. Depois = Antes 


Figura 8.25 Frequences observadas. 
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Test Statistics 3 



Depois - 
Antes 

z 

Asymp. Sig. (2-tailed) 

-.588 

,556 


a. Sign Test 


Figura 8.26 Estatfstica do teste dos sinais (duas amostras emparelhadas) para o Exemplo 6 no SPSS. 

A Figura 8.25 apresenta as frequences de sinais negativos e positivos, o numero total de empates e a frequen- 
cia total. 

A Figura 8.26 apresenta o resultado do teste z 9 alem da probabilidade P associada para um teste bilateral, va- 
lores semelhantes aos calculados no Exemplo 6. Gomo P-value — 0,556 > 0,05, a hipotese nula nao e rejeitada, 
o que nos permite concluir, ao mvel de confian^a de 95%, que nao ha diferen^a na produtividade antes e depois 
do treinamento. 


83.2.2. Resoluqao do teste dos sinais para duas amostras emparelhadas por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se^ao tem autoriza^ao da StataCorp LP®. 

Os dados do Exemplo 6 tambem estao dispomveis no Stata no arquivo Teste_Sinais_Duas_Amostras_ 
Emparelhadas.dta. As variaveis emparelhadas denominam-se antes e depois. 

Conforme estudamos na se^ao 8.2.3.2 para uma unica amostra, o teste dos sinais no Stata e realizado a partir 
do comando signtest. No caso de duas amostras emparelhadas, devemos utilizar o mesmo comando, porem 
seguido pelos nomes das variaveis emparelhadas, com o sinal de igualdade entre elas, ja que o objetivo e testar a 
igualdade das respectivas medianas. O comando a ser digitado para o nosso exemplo e, portanto: 

signtest depois = antes 

O resultado do teste esta ilustrado na Figura 8.27 e inclui o numero de sinais positivos (15), o numero de sinais 
negativos (11), assim como a probabilidade associada a estatistica para um teste bilateral (P = 0,557). Esses valores 
sao semelhantes aos calculados no Exemplo 6 e tambem gerados no SPSS. Como P > 0,05, devemos rejeitar a 
hipotese nula, o que nos permite concluir, ao nivel de confian^a de 95%, que nao ha diferen^a na produtividade 
antes e depois do treinamento. 


. signtest depois = antes 
Sign test 

sign | observed expected 

- + - 

positive | 15 13 

negative | 11 13 

zero | 4 4 

- + - 

all | 30 30 


One-sided tests: 

Ho: median of depois - antes = 0 vs. 

Ha: median of depois - antes > 0 
Pr(#positive >= 15) = 

Binomial(n = 26, x >= 15, p = 0.5) 


Ho: median of depois - antes = 0 vs. 

Ha: median of depois - antes < 0 
Pr(#negative >= 11) = 

Binomial(n = 26 , x >= 11, p = 0.5) 


0.2786 


0.8365 


Two-sided test: 

Ho: median of depois - antes = 0 vs. 

Ha: median of depois - antes != 0 

Pr(#positive >= 15 or #negative >= 15) = 
_min(1, 2*Binomial(n =26, x >= 15, p = 0.5)) - 


0.5572 


Figura 8.27 Resultados do teste dos sinais (duas amostras emparelhadas) para o Exemplo 6 no Stata. 
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8.3.3. Teste de Wilcoxon 

Analogamente ao teste dos sinais para duas amostras emparelhadas, o teste de Wilcoxon e uma alternativa ao 
teste t quando a distribui^ao dos dados nao for aderente a distribui^ao normal. 

O teste de Wilcoxon e uma extensao do teste dos sinais, porem, mais poderoso. Alem da informa^ao sobre a 
dire£ao das diferen^as para cada par, o teste de Wilcoxon leva em considera^ao a magnitude da diferen^a dentro 
dos pares (Favero et al. , 2009). Os fundamentos logicos e o metodo utilizado no teste de Wilcoxon estao descritos 
a seguir, baseado em Siegel e Castellan Jr. (2006). 

Consideremos d { a diferen^a entre os valores para cada par de dados. Inicialmente, vamos colocar em ordem 
crescente todos os d \s pelo seu valor absoluto (sem considerar o sinal) e calcular os respectivos postos usando essa 
ordena^ao. Por exemplo, o posto 1 e atribuido ao menor \d t \ ,o posto 2 ao segundo menor e assim sucessivamen- 
te. Ao final, deve ser atribuido o sinal da diferen^a d { para cada posto. A soma dos postos positivos e representada 
por S p e a soma dos postos negativos por S n . 

Eventualmente, os valores para determinado par de dados sao iguais (d { = 0). Nesse caso, eles sao excluidos da 
amostra. E o mesmo procedimento adotado no teste dos sinais, de modo que o valor de N representa o tamanho 
da amostra descontando esses empates. 

Pode ocorrer ainda outro tipo de empate, em que duas ou mais diferen^as tenham o mesmo valor absoluto. 
Nesse caso, o mesmo posto sera atribuido aos empates, que correspondent a media dos postos que teriam sido 
atribuidos se as diferen^as fossem distintas. Por exemplo, suponha que tres pares de dados indiquem as seguintes 
diferen^as: -1, 1 e 1. A cada par e atribuido o posto 2, que corresponde a media entre 1, 2 e 3. O proximo valor, 
pela ordem, recebera o posto 4,ja que os postos 1, 2 e 3 ja foram utilizados. 

A hipotese nula assume que a mediana das diferen^as na popula^ao (jLl d ) seja zero, ou seja, as populates nao 
diferem em localiza^ao. Para um teste bilateral, temos que: 

H 0 : fl d = 0 

Hi: A* ^ 0 

Em outras palavras, devemos testar a hipotese de que nao ha diferen^as entre as duas amostras (as amostras sao 
provenientes de populates com a mesma mediana e a mesma distribui^ao continua), isto e, a soma dos postos 
positivos (S p ) e igual a soma dos postos negativos (S n ). 

Pequenas amostras 

Se N < 15, aTabela I do apendice do livro mostra as probabilidades unilaterais associadas aos diversos valo¬ 
res crfticos de S c ( P(S p > S c ) = a). Para um teste bilateral, este valor deve ser dobrado. Se a probabilidade obtida 
(P-value) for menor ou igual a OC, devemos rejeitar H 0 . 


Grandes amostras 

A medida que N cresce, a distribui^ao de Wilcoxon aproxima-se de uma distribui^ao normal padrao. Assim, 
para N > 15, devemos calcular o valor da variavel z que, segundo Siegel e Castellan Jr. (2006), Favero et ah (2009) 
e Maroco (2014), e dado por: 


nun(S ,SJ- 


N-(N + 1) 


Z ca i —" 


g 2 


1 


N-(N+1)-(2N+1) jf' m 


24 


48 


(8.9) 


em que: 



J =1 J- 1 e um fator de corre^ao quando houver empates; 

48 

g: numero de grupos de postos empatados; 
tj: numero de observa^oes empatadas no grupo j. 
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O valor calculado deve ser comparado com o valor critico da distribui^ao normal padrao (Tabela E do apen- 
dice do livro). Essa tabela fornece os valores criticos de tal que P[Z ca{ > z c ) — OC (para um teste unilateral a direi- 
ta). Para um teste bilateral, temos que P(Z cat < - z c ) = P(Z cat > z c ) = a/2. A hipotese nula H 0 de um teste bilateral 
e rejeitada se o valor da estatistica Z cal pertencer a regiao critica, isto e, se Z cal < — z c ou Z cal > z c \ caso contrario, 
nao rejeitamos H 0 . 

As probabilidades unilaterais associadas a estatistica Z ca l (P{) tambem podem ser obtidas a partir da Tabela E. 
Para um teste unilateral, consideramos P = P t . Para um teste bilateral, essa probabilidade deve ser dobrada (P = 
2.P t ). Assim, para ambos os testes, rejeitamos H 0 se P < OC . 

■ EXEMPL0 7- APLICA^AO DO TESTE DEWILCOXON 

Um grupo de 18 alunos do 3° ano do ensino medio e submetido a um exame de proficiencia na lingua ingle- 
sa, sem nunca ter feito um curso extracurricular. O mesmo grupo de alunos e submetido a um curso intensivo 
de ingles por 6 meses e, ao final, fazem novamente o exame de proficiencia. Os resultados sao apresentados na 
Tabela 8.9.Teste a hipotese de que nao ocorrem melhoras antes e depois do curso. Considere OC = 5%. 


Tabela 8.9 Notas antes e depois do curso intensivo. 


Antes 

Depois 

56 

60 

65 

62 

70 

74 

78 

79 

47 

53 

52 

59 

64 

65 

70 

75 

72 

75 

78 

88 

80 

78 

26 

26 

55 

63 

60 

59 

71 

71 

66 

75 

60 

71 

17 

24 


■ SOLU^AO 

Passo 1: Como os dados nao seguem distribui^ao normal, o teste de Wilcoxon pode ser aplicado, sendo mais 
poderoso do que o teste dos sinais para duas amostras emparelhadas. 

Passo 2: Pela hipotese nula, nao ha diferen^a no desempenho dos alunos antes e depois do curso, ou seja: 


H 0 :tt* = 0 


Passo 3: O nivel de significance a ser considerado e de 5%. 

Passo 4: Como N > 15, a distribui^ao de Wilcoxon aproxima-se de uma normal. Para a determina^ao do valor 
de z, inicialmente calcularemos d { e os respectivos postos, como mostra a Tabela 8.10. 
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Tabefa 8.10 Calculo de d, e respectivos postos. 


Antes 

Depois 

d ,i 

Posto de d { 

56 

60 

4 

7,5 

65 

62 

-3 

-5,5 

70 

74 

4 

7,5 

78 

79 

1 

2 

47 

53 

6 

10 

52 

59 

7 

11,5 

64 

65 

1 

2 

70 

75 

5 

9 

72 

75 

3 

5,5 

78 

88 

10 

15 

80 

78 

-2 

-4 

26 

26 

0 


55 

63 

8 

13 

60 

59 

-1 

-2 

71 

71 

0 


66 

75 

9 

14 

60 

71 

11 

16 

17 

24 

7 

11,5 


Como ha dois pares de dados com valores iguais (d { = 0), eles sao excluidos da amostra, de modo que N — 16. 
A soma dos postos positivos e S p = 2 + ... + 16 = 124,5.A soma dos postos negativos e S n = 2 + 4 + 5,5 = 11,5. 
Desta forma, podemos calcular o valor de z por meio da expressao (8.9): 




N-(N + 1) 


11,5- 


1617 


2 m( =- 


£ £ 


| N-(N + 1)-(2N+1) g 

24 48 


16-17-33 59-11 


^=—2,925 


24 


48 


Passo 5: Com o auxilio da tabela de distribuicao normal padrao (Tabela E do apendice do livro), determinamos 
a regiao critica (RC) para o teste bilateral, conforme mostra a Figura 8.28. 



Figura 8.28 Regiao critica do Exemplo 7. 


Passo 6: Decisao - como o valor calculado pertence a regiao critica, isto e, Z a/ < -1,96, a hipotese nula e rejei- 
tada, o que nos permite concluir, ao nivel de confian^a de 95%, que existe diferen^a no desempenho dos alunos 
antes e depois do curso. 

Se, em vez de compararmos o valor calculado com o valor critico da distribui^ao normal padrao, utilizarmos 
o calculo do P-value, os passos 5 e 6 serao: 
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Passo 5: De acordo com aTabela E do apendice do livro, a probabilidade unilateral associada a estatistica %cdl ~ 
-2,925 e P t = 0,0017. Para um teste bilateral, essa probabilidade deve ser dobrada ( P-value = 0,0034). 

Passo 6: Decisao — como P < 0,05, devemos rejeitar a hipotese nula. 

8.3.3.1. Resoluqao do teste de Wilcoxon por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tem autoriza^ao da International Business Machines Corporation®. 
Os dados do Exemplo 7 estao dispomveis no arquivo Teste_Wilcoxon.sav. O procedimento para a ela- 
bora^ao do teste de Wilcoxon para duas amostras emparelhadas no SPSS esta ilustrado a seguir. Clicaremos em 

Analyze —» Nonparametric Tests —» Legacy Dialogs —> 2 Related Samples..., como mostra a Figura 8.29. 
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Figura 8.29 Procedimento para a elaborate do teste de Wilcoxon no SPSS. 

Vamos, inicialmente, inserir a variavel 1 (Antes) e a variavel 2 (Depois ) em Test Pairs. Marcaremos a op^ao 
referente ao teste de Wilcoxon em Test Type, como mostra a Figura 8.30. 


ufe, 


X 



Test Pairs: 


(Fair"''; 

VariaWei 

VariaMe2 

t 

$ fAntesj 

$ IDepoisJ 

2 





-T est Type—---- 

US Wilcoxon 

ES Sign 

IQ McNemar 
0 Marginal Homogeneity 



y^Ust®] U 


Figura 8.30 Sele^ao das variaveis e do teste de Wilcoxon. 
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Por fim, clicamos em OK e obtemos os resultados do teste de Wilcoxon para duas amostras emparelhadas 
(Figuras 8.31 e 8.32). , 

Ranks 



N 

Mean Rank 

Sum of Ranks 

Depois - Antes Negative Ranks 

3 a 

3,83 

11,50 

Positive Ranks 

13 b 

9,58 

124,50 

Ties 

2 C 



Total 

18 




a. Depois < Antes 

b. Depois > Antes 

c. Depois = Antes 

Figura8.31 Postos. 
Test Statistics 13 



Depois - 
Antes 

Z 

Asymp. Sig. (2-tailed) 

-2,925 a 

,003 


a. Based on negative ranks. 

b. Wilcoxon Signed Ranks Test 


Figure 8.32 Estatistica do teste de Wilcoxon para o Exemplo 7 no SPSS. 

A Figura 8.31 apresenta o numero de postos negativos, positivos e empatados, alem da media e da soma dos 
postos positivos e negativos. 

A Figura 8.32 apresenta o resultado do teste z, alem da probabilidade P associada para um teste bilateral, valo- 
res semelhantes aos encontrados no Exemplo 7. Como P-value — 0,003 < 0,05, devemos rejeitar a hipotese nula, 
o que nos permite concluir, ao nivel de confian^a de 95%, que ha diferen^a no desempenho dos alunos antes e 
depois do curso. 

833.2. Resoluqao do teste de Wilcoxon por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se$ao tern autoriza^ao da StataCorp LP®. 

Os dados do Exemplo 7 estao disponiveis no arquivo Teste_Wilcoxon.dta. As variaveis emparelhadas de- 
nominam-se antes e depois. 

O teste de Wilcoxon no Stata e realizado a partir do comando signrank seguido pelo nome das variaveis 
emparelhadas com sinal de igualdade entre elas. Para o nosso exemplo, devemos digitar o seguinte comando: 

signrank antes = depois 

O resultado do teste esta ilustrado na Figura 8.33. Como P < 0,05, rejeitamos a hipotese nula, o que nos per¬ 
mite concluir, ao nivel de confian^a de 95%, que ha diferen^a no desempenho dos alunos antes e depois do curso. 

. signrank antes = depois 

Wilcoxon signed-rank test 

sign | obs sum ranks expected 

- + - 

positive | 3 17.5 84 

negative | 13 150.5 84 

zero | 2 3 3 

- -—+- 

all I 18 171 171 

unadjusted variance 527.25 

adjustment for ties -0.88 

adjustment for zeros -1.25 

adjusted variance 525.13 

Ho: antes = depois 

z = -2.902 

Prob > |z| = 0.0037_ 


Figure 8.33 Resultados do teste de Wilcoxon para o Exemplo 7 no Stata. 
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8.4. TESTES PARA DUAS AMOSTRAS INDEPENDENTES 

Nestes testes, buscamos comparar duas populates representadas por suas respectivas amostras. Diferente dos 
testes para duas amostras emparelhadas, aqui nao e necessario que as amostras sejam do mesmo tamanho. Dentre 
os testes para duas amostras independentes, podemos destacar o teste qui-quadrado (para variaveis nominais ou 
ordinais) e o teste de Mann-Whitney (para variaveis ordinais). 


8.4.1. Teste qui-quadrado (x 2 ) para duas amostras independentes 

Na se^ao 8.2.2, o teste X 2 foi aplicado para uma unica amostra em que a variavel em estudo era qualitativa 
(nominal ou ordinal). Aqui o teste sera aplicado para duas amostras independentes, a partir de variaveis qualitati- 
vas nominais ou ordinais. Esse teste ja foi estudado no Capitulo 3 (se^ao 3.2.2), para verificar se existe associa^ao 
entre duas variaveis qualitativas, e sera descrito novamente nesta segao. 

O teste compara as frequences observadas em cada uma das celulas da tabela de contingencia com as fre¬ 
quences esperadas. O teste X 2 P ara duas amostras independentes assume as seguintes hipoteses: 

H 0 : nao ha diferen^a significativa entre as frequencias observadas e esperadas 

Hj: ha diferen^a significativa entre as frequencias observadas e esperadas 


A estatistica X 2 mede, portanto, a discrepancia entre uma tabela de contingencia observada e uma tabela de 
contingencia esperada, partindo da hipotese de que nao ha associa^ao entre as categorias das duas variaveis estu- 
dadas. Se a distribui^ao de frequencias observadas for exatamente igual a distribui^ao de frequencias esperadas, o 
resultado da estatistica X 2 sera igual a zero. Assim, um valor baixo de X 2 indica independence entre as variaveis. 

Conforme ja apresentado na expressao (3.1) do Capitulo 3, a estatistica X 2 P ara duas amostras independentes 
e dada por: 




E 

i =1 j =1 V 


( 8 . 10 ) 


em que: 

Oyi quantidade de observances na /-esima categoria da variavel X e naj-esima categoria da variavel Y; 

E { j. frequencia esperada de observances na /-esima categoria da variavel X e na j-esima categoria da variavel Y; 
I: quantidade de categorias (linhas) da variavel X; 

J : quantidade de categorias (colunas) da variavel Y. 


Os valores de X^ caX seguem, aproximadamente, uma distribuinao X 2 com V = (7—1) * (J — 1) graus de liberdade. 
Os valores criticos da estatistica qui-quadrado (jfy estao na Tabela D do apendice do livro. Essa tabela fornece os 
valores criticos de ^ tal que P{jf ca i > jfy = (X (para um teste unilateral a direita). Para que a hipotese nula H 0 seja 
rejeitada, o valor da estatistica jf cal deve pertencer a regiao critica, isto e, > X^ c \ caso contrario, nao rejeitamos 
H 0 . 



Figura8.34 Distribuinao^ 2 . 
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No Capitulo 11, utilizaremos esses conceitos no estudo da tecnica bivariada de analise de correspondence. 

■ EXEMPLO 8 - APLICA^AO DO TESTE x 2 PARA DUAS AMOSTRAS INDEPENDENTES 

Consideremos novamente o Exemplo 1 do Capitulo 3, que se refere a um estudo realizado com 200 indi- 
viduos com o intuito de analisar o comportamento conjunto da variavel X ( Operadora de piano de saude) com a 
variavel Y (Nivel de satisfagao) . A tabela de contingencia exibindo a distribui^ao conjunta de frequencias absolutas 
das variaveis, alem dos totais marginais, esta representada naTabela 8.11 .Teste a hipotese de que nao ha associa^ao 
entre as categorias das duas variaveis, considerando OC = 5%. 


Tabela 8.11 Distribui^ao conjunta de frequencias absolutas das variaveis em estudo. 



Nivel de satisfa 9 ao 


Operadora 

Baixo 

Medio 

Alto 

Total 

Total Health 

40 

16 

12 

68 

Viva Vida 

32 

24 

16 

72 

Mena Saude 

24 

32 

4 

60 

Total 

96 

72 

32 

200 


■ SOLU^AO 

Passo 1: O teste adequado para comparar as frequencias observadas em cada celula de uma tabela de contingen¬ 
cia com as frequencias esperadas e o X 2 P ara duas amostras independentes. 

Passo 2: Pela hipotese nula, nao existem associates entre as categorias das variaveis Operadora e Nivel de satis- 
fagao , isto e, as frequencias observadas e esperadas sao iguais para cada par de categorias das variaveis. A hipotese 
alternativa afirma que ha diferen<~as em pelo menos um par de categorias, ou seja: 

H 0 : Oij = Ey 

Hi: Oy^Ey 

Passo 3: O mvel de significance a ser considerado e de 5%. 

Passo 4: Para o calculo da estatistica, e necessario comparar os valores observados com os esperados. A Tabela 
8.12 apresenta os valores observados da distribui^ao com as respectivas frequencias relativas sobre o total geral da 
linha. O calculo tambem poderia ser efetuado em rela^ao ao total geral da coluna, chegando ao mesmo resulta- 
do da estatistica X 2 * 

Tabela 8.12 Valores observados de cada categoria com as respectivas proporgaes em rela^ao ao total geral da linha. 



Nivel de satisfa 9 ao 


Operadora 

Baixo 

Medio 

Alto 

Total 

Total Health 

40 (58,8%) 

16 (23,5%) 

12 (17,6%) 

68 (100%) 

Viva Vida 

32 (44,4%) 

24 (33,3%) 

16 (22,2%) 

72 (100%) 

Mena Saude 

24 (40%) 

32 (53,3%) 

4 (6,7%) 

60 (100%) 

Total 

96 (48%) 

72 (36%) 

32 (16%) 

200 (100%) 


Os dados da Tabela 8.12 apontam uma dependence entre as variaveis. Supondo que nao houvesse associa- 
$ao entre as variaveis, seria esperada uma propor^ao de 48% em rela^ao ao total da linha para as tres operadoras 
no mvel de satisfa^ao baixo, 36% no mvel medio e 16% no nivel alto. Os calculos dos valores esperados estao na 
Tabela 8.13. Por exemplo, o calculo da primeira celula e 0,48 x 68 = 32,6. 
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Tabela 8.1 3 Valores esperados da Tabela 8.12 assumindo a nao associa^ao entre as variaveis. 



Nivel de satisfa 9 ao 


Operadora 

Baixo 

Medio 

Alto 

Total 

Total Health 

32,6 (48%) 

24,5 (36%) 

10,9 (16%) 

68 (100%) 

Viva Vida 

34,6 (48%) 

25,9 (36%) 

11,5 (16%) 

72.(100%) 

Mena Saude 

28,8 (48%) 

21,6 (36%) 

9,6 (16%) 

60 (100%) 

Total 

96 (48%) 

72 (36%) 

32 (16%) 

200 (100%) 


Para o calculo da estatistica X 2 * devemos aplicar a expressao (8.10) para os dados dasTabelas 8.12 e 8.13. O 
f O E ') 2 

—*1 -T— esta representado na Tabela 8.14, juntamente com a medida resultante da 

E .j 


calculo de cada termo 


soma das categorias. Ey 


Tabela 8.14 Calculo da estatistica. 



Nivel de satisfa 9 ao 

Operadora 

Baixo 

Medio 

Alto 

Total Health 

1,66 

2,94 

0,12 

Viva Vida 

0,19 

0,14 

1,74 

Mena Saude 

0,80 

5,01 

3,27 

Total 

fcal = 15,861 


Passo 5: A regiao critica (RC) da distribui^ao X 2 (Tabela D do apendice do livro), considerando CC = 5% e V = 
(I — 1) * (J- 1) — 4 graus de liberdade, esta representada na Figura 8.35. 



Figura 8.35 Regiao critica do Exemplo 8. 


Passo 6: Decisao - como o valor calculado pertence a regiao critica, isto e, $ al > 9,488, devemos rejeitar a hi- 
potese nula, o que nos permite concluir, ao mvel de confian^a de 95%, que existe associa^ao entre as categorias 
das variaveis. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com a Tabela D do apendice do livro, a probabilidade associada a estatistica jf cal - 15,861, 
para V — 4 graus de liberdade, e inferior a 0,005. 

Passo 6: Decisao - como P < 0,05, rejeitamos H 0 . 

8A. 7.7. Resoluqao do testex 2 por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tern autoriza^ao da International Business Machines Corporation®. 
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Os dados do Exemplo 8 estao dispomveis no arquivo PlanoSaude.sav. Para o calculo da estatistica X 2 P ara 
duas amostras independentes, devemos clicar em Analyze —» Descriptive Statistics —> Crosstabs....Vamos 
inserir a variavel Operadora em Row(s) e a variavel Satisfacao em Column(s), conforme mostra a Figura 8.36. 


Row(s); f 

|# Operadora ! 

L 

r 


r 

L 

Column(s): f 

\£- Satisfacao | 

i 


[ 


Exact. 


i Statistics...! 


Cells... 


Format.. 


Bootstrap../) 


Layer 1 of I’¬ 
ll 3 revio us ) 


Nert 


IP1 Display layer variables in table layers 


n Display clustered bar charts 
D Suppress tables 


OK 


Paste 


Reset 


Cancel 


Help 


Figura 8.36 Sele^ao das variaveis. 

No botao Statistics..., selecionaremos a op^ao Chi-square, conforme mostra a Figura 8.37. Por fim, deve¬ 
mos clicar em Continue e OK. O resultado esta na Figura 8.38. 


Crosstabs: Statistics 
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Cancel 
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Figura 8.37 Sele^ao da estati'stica x 2 - 
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Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

15,861 a 

4 

,003 

Likelihood Ratio 

16,302 

4 

,003 

Linear-by-Linear 

Association 

,429 

1 

,512 

N of Valid Cases 

200 




a. 0 cells (,0%) have expected count less than 5. The minimum 
expected count is 9,60. 

Figura 8.38 Resultados do teste x 2 P ara 0 Exemplo 8 no SPSS. 


A partir da Figura 8.38, podemos verificar que o valor de X 2 & 15,861, semelhante ao calculado no Exemplo 
8. Para o nivel de confian^a de 95%, como P = 0,003< 0,05, devemos rejeitar a hipotese nula, o que nos permite 
concluir, ao nivel de confian^a de 95%, que ha associa^ao entre as categorias das variaveis, isto e, as frequencias 
observadas sao diferentes das frequencias esperadas em pelo menos um par de categorias. 

Tambem faremos uso desses procedimentos no estudo da tecnica bivariada de analise de correspondence no 
Capitulo 11. 

8.4.1.2. Resolugao do teste x 2 por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta segao tem autoriza^ao da StataCorp LP @ . 

Conforme apresentado no Capitulo 3, o calculo da estatistica X 2 no Stata e realizado a partir do comando 
tabulate, ou simplemente tab, seguido do nome das variaveis em estudo, utilizando a op^ao chi2, ou simples- 
mente ch. A sintaxe do teste e: 

tab variavell* variavel2*, ch 

Os dados do Exemplo 8 tambem estao disponiveis no arquivo PlanoSaude.dta. As variaveis em estudo de- 
nominam-se operadora e satisfagao.A ssim, devemos digitar o seguinte comando: 

tab operadora satisfacao, ch 

Os resultados estao na Figura 8.39 e sao semelhantes aos apresentados no Exemplo 8 e no software Stata. 


. tab operadora satisfacao, ch 

| satisfacao 


operadora | 

baixo 

medio 

alto | 

Total 






total health | 

40 

16 

12 | 

68 

viva vida | 

32 

24 

16 | 

72 

mena saude | 

24 

32 

4 I 

60 






Total | 

96 

72 

32 | 

200 

Pearson 

chi2(4) = 

15.8606 

Pr = 0.003 



Figura 8.39 Resultados do teste x 2 para o Exemplo 8 no Stata. 


Tambem faremos uso desses procedimentos no estudo da tecnica bivariada de analise de correspondence no 
Capitulo 11. 


8.4.2. Teste Ude Mann-Whitney 

O teste U de Mann-Whitney e um dos testes nao parametricos mais poderosos, aplicado para variaveis quan- 
titativas ou qualitativas em escala ordinal, e tem como objetivo verificar se duas amostras nao pareadas ou in- 
dependentes sao extraidas da mesma popula^ao. E uma alternativa ao teste t de Student quando a hipotese de 
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normalidade for violada ou quando o tamanho da amostra for pequeno, podendo ser considerado a versao nao 
parametrica do teste t para duas amostras independentes. 

Como os dados originais sao transformados em postos (ordena^oes), perdemos alguma informaqao, ou seja, o 
teste U de Mann-Whitney nao e tao poderoso como o teste t. 

Diferente do teste t, que verifica a igualdade das medias de duas populates independentes e com dados con¬ 
tinues, o teste U de Mann-Whitney testa a igualdade das medianas. Para um teste bilateral, a hipotese nula e de 
que a mediana das duas populates seja igual, isto e: 

H 0 :Mi =A*2 
H 

O calculo da estatistica U de Mann-Whitney esta especificado a seguir, para pequenas e grandes amostras. 

Pequenas amostras 

Metodo: 

a) Consideremos N x o tamanho da amostra com menor quantidade de observances e N 2 o tamanho da amos¬ 
tra com maior quantidade de observances. Assumimos que as duas amostras sejam independentes. 

b) Para aplicar o teste U de Mann-Whitney, devemosjuntar as duas amostras numa unica amostra combinada 
que sera formada por N = N x + N 2 elementos. Porem, devemos identificar a amostra de origem de cada 
observanao na amostra combinada, que deve ser ordenada de forma crescente com postos atribuidos a cada 
observanao. Por exemplo, o posto 1 e atribuido a menor observanao e o posto N a maior observanao. Caso 
haja empates, atribuimos a media dos postos correspondentes. 

c) Em seguida, devemos calcular a soma dos postos para cada amostra, isto e, calcular R x que corresponde a 
soma dos postos da amostra com menor numero de observances e R 2 que corresponde a soma dos postos 
da amostra com maior numero de observanoes. 

d) Assim, podemos calcular as quantidades e U 2 da seguinte forma: 


U t =N t -N 2 + Nl 1} R, 

(8.11) 


(8.12) 


e) A estatistica U de Mann-Whitney e dada por: 


U ca i “ mln(U 1 , U 2 ) 

ATabela J do apendice do livro apresenta os valores criticos de U tal que P(U Ml < U c ) = OC (para um teste uni¬ 
lateral a esquerda), para valores de N 2 < 20 e niveis de significancia de 0,05,0,025,0,01 e 0,005. Para que a hipo¬ 
tese nula H 0 do teste unilateral a esquerda seja rejeitada, o valor da estatistica U ca] deve pertencer a regiao critica, 
isto e, U ca i < U c ; caso contrario, nao rejeitamos H 0 . Para um teste bilateral, devemos considerar P{U cd < U c ) — (X/ 2, 
ja que P(U cal < U c ) + P(U cal > U c ) = a. 

As probabilidades unilaterais associadas a estatistica U caX (P t ) tambem podem ser obtidas a partir da Tabela J. 
Para um teste unilateral, temos que P = P 1 . Para um teste bilateral, essa probabilidade deve ser dobrada (P = 2.P t ). 
Assim, rejeitamos H 0 se P < OC. 

Grandes amostras 

A medida que o tamanho da amostra cresce (N 2 > 20), a distribuinao de Mann-Whitney aproxima-se de uma 
distribuinao normal padrao. 

O valor real da estatistica Z e dado por: 
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(U-N 1 -N 2 /2) 


]V,-iV 2 

( g z \ 

N‘-N “f -f? 

N-(N-l) 

12 

12 


V 

y 


(8.13) 


em que: 



Tzl_ tl _e um fator de corre^ao quando houver empates; 

12 

g: numero de grupos de postos empatados; 
tj. numero de observances empatadas no grup oj. 


O valor calculado deve ser comparado com o valor critico da distribuinao normal padrao (Tabela E do apen- 
dice do livro). Essa tabela fornece os valores criticos de tal que P(Z cal > z c ) — OC (para um teste unilateral a di- 
reita). Para um teste bilateral, temos que P[Z caX < —z c ) = P(Z ta/ > z c ) = a/ 2. Portanto, para um teste bilateral, a 
hipotese nula e rejeitada se Z caX < —z c ou Z cal > z c . 

As probabilidades unilaterais associadas a estatistica Z ca \ (Pj = P) tambem podem ser obtidas a partir da 
Tabela E. Para um teste bilateral, essa probabilidade deve ser dobrada (P = 2.P a ). Assim, a hipotese nula e re¬ 
jeitada se P < a. 

■ EXEMPLO 9 - APLICA^AO DO TESTE U DE MANN-WHITNEY PARA PEQUENAS AMOSTRAS 

Com o objetivo de avaliar a qualidade de duas maquinas, sao comparados os diametros das pe^as produzidas 
(em mm) em cada uma delas, como mostra a Tabela 8.15. Utilize o teste adequado, ao nivel de significancia de 
5%, para testar se as duas amostras provem ou nao de populates com medianas iguais. 


Tabela 8.15 Diametro de pe<;as produzidas em duas maquinas. 


Maq.A 

48,50 

48,65 

48,58 

48,55 

48,66 

48,64 

48,50 

48,72 

Maq. B 

48,75 

48,64 

48,80 

48,85 

48,78 

48,79 

49,20 



m SOLU^AO 

Passo 1: Aplicando o teste de normalidade para as duas amostras, podemos verificar que os dados da maquina B 
nao seguem distribui^ao normal. Desta forma, o teste adequado para comparar as medianas de duas populates 
independentes e o teste U de Mann-Whitney. 

Passo 2: Pela hipotese nula, os diametros medianos das pe^as nas duas maquinas sao iguais, de modo que: 

H 0 : Pa = Pb 
Pa ^ Pb 


Passo 3: O nivel de significancia a ser considerado e de 5%. 

Passo 4: Calculo da estatistica U : 

a) N t = 7 (tamanho da amostra da maquina B) 

N 2 — 8 (tamanho da amostra da maquina A) 

b) Amostra combinada e respectivos postos (Tabela 8.16): 
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Tabela 8.16 Dados combinados. 


Dados 

Maquina 

Postos 

48,50 

A 

1,5 

48,50 

A 

1,5 

48,55 

A 

3 

48,58 

A 

4 

48,64 

A 

5,5 

48,64 

B 

5,5 

48,65 

A 

7 

48,66 

A 

8 

48,72 

A 

9 

48,75 

B 

10 

48,78 

B 

11 

48,79 

B 

12 

48,80 

B 

13 

48,85 

B 

14 

49,20 

B 

15 


c) = 80,5 (soma dos postos da maquina B com menor numero de observances); 
R 2 = 39,5 (soma dos postos da maquina A com maior numero de observances). 

d) Calculo de U r e U 2 : 

U, =N t • N 2 + N '^1±A -R, =7-8 + —-80,5 = 3,5 
2 2 


U 2 =N 1 -N 2 + N 2 ' (N 2 + 1) -r 2 = 7-8 + : ^-39,5 = 52,5 


8^9 

2 


e) Calculo da estatistica U de Mann-Whitney: 

U cal = min(U 1 , D 2 ) = 3,5 


Passo 5:De acordo com aTabelaJ do apendice do livro,para — 7, N 2 — 8 e P(U ca i < U c ) — CC/2 — 0,025 (teste 
bilateral), o valor critico da estatistica U de Mann-Whitney e U c = 10. 


Passo 6: Decisao - como o valor da estatistica calculada pertence a regiao critica, isto e, U ca i < 10, a hipotese 
nula e rejeitada, o que nos permite concluir, ao nivel de confianna de 95%, que as medianas das duas populanoes 
sao diferentes. 


Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 


Passo 5: De acordo com aTabelaJ do apendice do livro, a probabilidade P l unilateral associada a estatistica U cai — 
3,5, para N x = 7 e N x — 8, e inferior a 0,005. Para um teste bilateral, essa probabilidade deve ser dobrada (P < 0,01). 

Passo 6: Decisao — como P < 0,05, devemos rejeitar H 0 . 


■ EXEMPLO 10 - APLICA^AO DO TESTE U DE MANN-WHITNEY PARA GRANDES AMOSTRAS 

Conforme descrito anteriormente, a medida que o tamanho da amostra cresce (N 2 > 20), a distribuinao de Mann- 
Whitney aproxima-se de uma distribuinao normal padrao. Apesar dos dados do Exemplo 9 representarem uma amostra 
pequena (N 2 = 8), qual seria o valor de z nesse caso, utilizando a expressao (8.13)? Interprete o resultado. 


■ SOLU^AO 


(U-N 1 -N 2 /2) ___ (3,5-7-872) 


J N t -N 2 

( 2 2^ 
n 3 -n % % 

\ 

I 7-8 

f 15 3 —15 16—4^ 

1 15-14 

v 12 12 j 

| N-(N-l) 

12 12 . 

v J 



-2,840 




Testes Nao Parametricos 281 


O valor critico da estatistica para um teste bilateral, ao nivel de significancia de 5%, e -1,96 (Tabela E do 
apendice do livro). Como Zed < -1,96, a hipotese nula tambem e rejeitada por meio da estatistica z, o que nos 
permite concluir, ao nivel de confian^a de 95%, que as medianas populacionais sao diferentes. 

Em vez de compararmos o valor calculado com o valor critico, poderiamos obter o valor do P-value direta- 
mente da Tabela E. Assim, a probabilidade unilateral associada a estatistica < -2,840 eP t = 0,0023. Para um 
teste bilateral, essa probabilidade deve ser dobrada ( P-value = 0,0046). 

8.4.2.1. Resol ugao do teste de Mann-Whitney por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tern autoriza^ao da International Business Machines Corporation®. 
Os dados do Exemplo 9 estao disponiveis no arquivo Teste_Mann-Whitney.sav. Como o grupo 1 e aque- 
le com o menor numero de observa^oes, em Data —> Define Variable Properties..., atribuimos o valor 1 ao 
grupo B e o valor 2 ao grupo A. 

Para elaborarmos o teste de Mann-Whitney no software SPSS, devemos clicar em Analyze —» Nonparametric 

Tests —> Legacy Dialogs —> 2 Independent Samples..., conforme mostra a Figura 8.40. 


I File Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Window Help 


<§) 

Regorts ► 

Descriptive Statistics ► 

Tables ► 

Compare Means ► 

General Linear Model ► 

Generalized linear Models ► 

Mixed Models ► 

Correlate ► 

Regression ► 

Loglinear ► 

Neural networks ► 

Classify ► 

Dimension Reduction ► 

Seale ► 


jiff 

m 

i 

I 

1 

s 


1 Eli ^ % ** 

4: 1 
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var | 
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B 








7 

A 








_ 

A 








9 

A 








10 

B 








11 

B 




- . 




12 

B 


Nonparametric Tests > 

Forecasting ► 

Survival ► 

Multiple Response ► 
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Quality Control ► 

j§l ROC Curve... 

One Sample... 
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IS 
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Figura 8.40 Procedimento para a elabora^ao do teste de Mann-Whitney no SPSS. 


Na sequencia, devemos inserir a variavel Diametro na caixa Test Variable List e a variavel Maquina em 
Grouping Variable, definindo os respectivos grupos. Selecionaremos a op^ao Mann-Whitney U em Test 
Type, conforme mostra a Figura 8.41. 



Figura 8.41 Sele^ao das variaveis e do teste de Mann-Whitney. 
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Por fim, vamos clicar em OK para obter as Figuras 8.42 e 8.43. A Figura 8.42 apresenta a media e a soma dos 
postos para cada grupo, enquanto a Figura 8.43 oferece as estatisticas do teste. 


Ranks 


Maquina 

N 

Mean Rank 

Sum of Ranks 

Diametro B 

7 

11,50 

80,50 

A 

8 

4,94 

39,50 

Total 

15 




Figura 8.42 Postos. 


Test Statistics 11 



Diametro 

Mann-Whitney U 

3,500 

Wilcoxon W 

39,500 

Z 

-2,840 

Asymp. Sig. (2-tailed) 

,005 

Exact Sig. [2*(1 -tailed 

Sig.)] 

,002 a 


a. Not corrected for ties. 

b. Grouping Variable: Maquina 


Figura 8.43 Estatisticas do teste de Mann-Whitney para o Exemplo 9 no SPSS. 

Os resultados da Figura 8.42 sao semelhantes aos calculados no Exemplo 9. 

De acordo com a Figura 8.43, o resultado da estatistica U de Mann-Whitney e 3,50, semelhante ao valor cal- 
culado no Exemplo 9. A probabilidade bilateral associada a estatistica U e P = 0,002 (vimos no Exemplo 9 que essa 
probabilidade e inferior a 0,01). Para os mesmos dados do Exemplo 9, se fosse calculada a estatistica Zea respectiva 
probabilidade bilateral associada, o resultado seria Z C al ~ —2,840 e P — 0,005, semelhantes aos valores calculados no 
Exemplo 10. Para os dois testes, como a probabilidade bilateral associada e menor do que 0,05, a hipotese nula e re- 
jeitada, o que nos permite concluir, ao nivel de confian^a de 95%, que as medianas das duas populates sao diferentes. 

8A.2.2. Resoluqao do teste de Mann-Whitney por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se^ao tern autoriza^ao da StataCorp LP®. 

O teste de Mann-Whitney e elaborado no Stata a partir do comando ranksum (teste de igualdade para dados 
nao emparelhados), por meio da seguinte sintaxe: 

ranksum variavel*, by(grupos*) 

em que o termo variavel* deve ser substituido pela variavel quantitativa estudada e o termo grupos* pela va¬ 
riavel categorica que representa os grupos. 

Vamos abrir o arquivo Teste_Mann-Whitney.dta que contem os dados dos Exemplos 9 e 10. Os dois gru¬ 
pos estao representados pela variavel maquina e a caracteristica de qualidade pela variavel diametro . O comando a 
ser digitado e, portanto: 

ranksum diametro, by (maquina) 

Os resultados obtidos estao na Figura 8.44. Podemos verificar que o valor da estatistica (2,840) corresponde 
ao valor calculado no Exemplo 10 para grandes amostras, a partir da expressao (8.13). A probabilidade associada a 
estatistica para um teste bilateral e 0,0045. Como P < 0,05, devemos rejeitar a hipotese nula, o que nos permite 
concluir, ao nivel de confian^a de 95%, que as medianas populacionais sao diferentes. 
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. ranksum. diametro, by(maquina) 

Two-sample Wilcoxon rank-sum (Mann-Whitney) test 

maquina | obs rank sum expected 

- + - 

b | 7 80.5 56 

a | 8 39.5 64 

- + - 

combined | 15 120 120 

unadjusted variance 74.67 

adjustment for ties -0.27 


adjusted variance 74.40 

Ho: diametro(maquina==b) = diametro(maquina==a) 
z = 2.840 

Prob > |z| = 0.0045 


Figura 8.44 Resultados do teste de Mann-Whitney para os Exemplos 9 e 10 no Stata. 


8.5. TESTES PARA k AMOSTRAS EMPARELHADAS 

Estes testes analisam as diferen^as entre k (tres ou mais) amostras emparelhadas ou relacionadas. Segundo 
Siegel e Castellan Jr. (2006), a hipotese nula a ser testada e de que k amostras tenham sido extraidas de uma mes- 
ma popula^ao. Os principals testes para k amostras emparelhadas sao o teste Q de Cochran (para variaveis de na- 
tureza binaria) e o teste de Friedman (para variaveis de natureza ordinal). 

8.5.1. Teste Q de Cochran 

O teste Q de Cochran para k amostras emparelhadas e uma extensao do teste de McNemar para duas amostras, 
e tern por objetivo testar a hipotese de que as frequencias ou propor^oes de tres ou mais grupos relacionados sao 
diferentes significativamente entre si. Da mesma forma que no teste de McNemar, os dados sao de natureza binaria. 

Segundo Siegel e Castellan Jr. (2006), o teste Q de Cochran compara as caracteristicas de diversos individuos 
ou do mesmo individuo observado sob condi^oes distintas. Por exemplo, podemos analisar se k itens sao dife¬ 
rentes significativamente para N individuos. Ou ainda, podemos ter apenas um item para analisar e o objetivo e 
comparar a resposta de N individuos sob k condi^oes distintas. 

Vamos supor que os dados de estudo estejam organizados em uma tabela com Nlinhas e k colunas, em que 
IV e o numero de casos e k o numero de grupos ou condi^oes. Pela hipotese nula do teste Q de Cochran, nao 
ha diferen^as entre as frequencias ou propor^oes de sucesso (p) dos k grupos relacionados, isto e, a propor^ao de 
uma resposta desejada (sucesso) e a mesma em cada coluna. Pela hipotese alternativa, ha diferen^as entre pelo 
menos dois grupos, de modo que: 

H 0-Pl = P2 = ••• =Pk 

H i '-^ijPi^Pj 

A estatistica Q de Cochran e dada por: 



k 

( * > 

2“ 

k.(k-\y^G-cf ^)' 




j =1 

N N 

N l 

W =1 J 

V 

— 


N N N N 

fe -Z L .-E L < 


*=i ' :=1 1=1 1=1 (8.14) 

que segue aproximadamente uma distribui^ao X 2 com k - 1 graus de liberdade, em que: 

Gj‘. numero total de sucessos na J-esima coluna; 

G: media dos G,; 

L-: numero total de sucessos na z-esima linha. 
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O valor calculado deve ser comparado com o valor critico da distribui^ao X 2 (Tabela D do apendice do li- 
vro). Essa tabela fornece os valores crfticos de % 2 C tal que P(X 2 ca i > X 2 C ) ~ a (para um teste unilateral a direita). 
Se o valor da estatistica pertencer a regiao critica, isto e, se > % 2 C , devemos rejeitar H 0 ; caso contrario, nao 
rejeitamos H 0 . 

A probabilidade associada a estatistica calculada ( P-value ) tambem pode ser obtida a partir da Tabela D. Nesse 
caso, a hipotese nula e rejeitada se P < 0C\ caso contrario, nao rejeitamos H 0 . 


■ EXEMPLO 11 - APLICA^AO DO TESTE Q DE COCHRAN 

Deseja-se avaliar o grau de satisfagao de 20 consumidores em rela^ao a tres supermercados, com o intuito de 
investigar se os clientes estao satisfeitos (score 1) ou nao (.score 0) em rela^ao a qualidade, a diversidade e ao pre^o 
dos produtos de cada supermercado.Verifique a hipotese de que a probabilidade de uma boa avalia^ao por parte 
dos clientes e a mesma para os tres supermercados, considerando o nivel de significance de 10%. A Tabela 8.17 
apresenta os resultados da avalia^ao. 


Tabela 8.17 Resultados da avalia^ao para os tres supermercados. 


Consumidor 

A 

B 

c 

Li 

l] 

1 

1 

1 

1 

3 

9 

2 

1 

0 

1 

2 

4 

3 

0 

1 

1 

2 

4 

4 

0 

0 

0 

0 

0 

5 

1 

1 

0 

2 

4 

6 

1 

1 

1 

3 

9 

7 

0 

0 

1 

1 

1 

8 

1 

0 

1 

2 

4 

9 

1 

1 

1 

3 

9 

10 

0 

0 

1 

1 

1 

11 

0 

0 

0 

0 

0 

12 

1 

1 

0 

2 

4 

13 

1 

0 

1 

2 

4 

14 

1 

1 

1 

3 

9 

15 

0 

1 

1 

2 

4 

16 

o 

1 

1 

2 

4 

17 

1 

1 

1 

3 

9 

18 

1 

1 

1 

3 

9 

19 

0 

0 

1 

1 

1 

20 

0 

0 

1 

1 

1 

Total 

Q = 11 

G 2 = 11 

G 3 = 16 

20 

XL,. = 38 

1=1 

20 

X L ?= 90 

i=i 


■ SOLUgAO 

Passo 1: O teste adequado para comparar proposes de tres ou mais grupos emparelhados e o teste Q de 
Cochran. 

Passo 2: Pela hipotese nula, a propor^ao de sucessos (score 1) e a mesma para os tres supermercados; pela hi¬ 
potese alternativa, a propor^ao de clientes satisfeitos e diferente para pelo menos dois supermercados, de mo- 
do que: 
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H 0 :pi - P2-P3 
H i ^(ijPi^Pj >i*j 


Passo 3: O nivel de significance a ser considerado e de 10%. 

Passo 4: O calculo da estatistica Q de Cochran, a partir da expressao (8.14), e dado por: 


Qcal ““ 



k 

( k \ 

2" 


(fe-!)• 

fe -X G '- 





7=1 

U' =1 ) 


_ (3 1) • 


N N 


3*38-90 


1= 4,167 


i =1 i=l 

Passo 5: A regiao critica (RC) da distribui^ao X 2 (Tabela D do apendice do livro), considerando a = 10% e V = 
k — 1 = 2 graus de liberdade, esta representada na Figura 8.45. 



Passo 6: Decisao — como o valor calculado nao pertence a regiao critica, isto e, < 4,605, a hipotese nula nao 
e rejeitada, o que nos permite concluir, ao nivel de confian^a de 90%, que a propor^ao de clientes satisfeitos e 
igual para os tres supermercados. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com a Tabela D do apendice do livro, para V — 2 graus de liberdade, a probabilidade asso- 
ciada a estatistica Q^/ = 4,167 e maior do que 0,10 ( P-value > 0,10). 

Passo 6: Decisao - como P > 0,10, nao devemos rejeitar H 0 . 

8.5.1.1. Resolugao do teste Q de Cochran por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tern autoriza^ao da International Business Machines Corporation®. 
Os dados do Exemplo 11 estao disponiveis no arquivo Teste_Q_Cochran.sav. O procedimento para a ela- 
bora^ao do teste Q de Cochran no SPSS esta detalhado a seguir. Inicialmente, vamos clicar em Analyze —> 
Nonparametric Tests —> Legacy Dialogs —> K Related Samples..., conforme mostra a Figura 8.46. 
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Figura 8.46 Procedimento para a elabora<;ao do teste Q de Cochran no SPSS. 


Na sequencia, devemos inserir as variaveis A, B e C na caixa Test Variables, e selecionar a op^ao Cochran’s 
Q em Test Type, como mostra a Figura 8.47. 


Test Variabl es : 



pTest Type-—■— -—-—--—— 

Q Friedman Q Kendall^ W Q Cochran's Q 





Exact.. 


Statistics... 


Paste 

Reset 

f Cancel 

Help 


Figura 8.47 Selegao das variaveis e do teste Q de Cochran. 


Por fim, vamos clicar em OK para obter os resultados do teste. A Figura 8.48 apresenta as frequencias de cada 
grupo e a Figura 8.49 oferece o resultado da estatistica. 
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Frequencies 



Value | 

0 

1 

A 

9 

11 

B 

9 

11 

C 

4 

16 


Figura8.48 Frequences. 


Test Statistics 


N 

20 

Cochran's Q 

4,167 a 

df 

2 

Asymp. Sig. 

,125 


a. 1 is treated as a 
success. 


Figura 8.49 Estatisticas do teste Q de Cochran para o Exemplo 11 no SPSS. 

O valor da estatistica Q de Cochran e 4,167, semelhante ao valor calculado no Exemplo 11. A probabilidade 
associada a estatistica e 0,125 (vimos no Exemplo 11 que P > 0,10). Como P > OC, a hipotese nula nao e rejei- 
tada, o que nos permite concluir, ao nivel de confian^a de 90%, que nao ha diferen^as na propor^ao de clientes 
satisfeitos entre os tres supermercados. 

8.5.1.2. Resoluqao do teste Q de Cochran por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se^ao tern autoriza^ao da StataCorp LP®. 

Os dados do Exemplo 11 tambem estao dispomveis no arquivo Teste_Q_Cochran.dta. O comando utiliza- 
do para a elabora^ao do teste e cochran seguido pelas k variaveis emparelhadas. No nosso caso, as variaveis que 
representam os tres supermercados denominam-se a, b e c, de modo que o comando a ser digitado e: 

cochran a b c 

Os resultados do teste Q de Cochran no Stata estao na Figura 8.50. Podemos verificar que o resultado da esta¬ 
tistica e a respectiva probabilidade associada sao semelhantes aos resultados calculados no Exemplo lie tambem 
gerados no SPSS, o que nos permite concluir, ao nivel de confian^a de 90%, que a propor^ao de clientes insatis- 
feitos e igual para os tres supermercados. 


. cochran a b c 


Test for equality 

of proportions of nonzero 

I outcomes in matched samples (Cochran's Q): | 

Number of obs 

= 20 

Cochran's chi2(2) 

= 4.166667 

Prob > chi2 

= 0.1245 


Figura 8.50 Resultados do teste Q de Cochran para o Exemplo 11 no Stata. 


8.5.2. Teste de Friedman 

O teste de Friedman e aplicado para variaveis quantitativas ou qualitativas em escala ordinal e tern como 
objetivo verificar se k amostras emparelhadas sao extraidas da mesma popula^ao. E uma extensao do tes¬ 
te de Wilcoxon para tres ou mais amostras emparelhadas. E tambem uma alternativa a Analise deVariancia 
quando suas hipoteses (normalidade dos dados e homogeneidade das variancias) forem violadas ou quando 
o tamanho da amostra for pequeno. 
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Os dados sao representados em uma tabela de dupla entrada com N linhas e k colunas, em que as linhas re- 
presentam os diversos individuos ou conjuntos correspondentes de individuos, e as colunas representam as di- 
versas condi^oes. 

A hipotese nula do teste de Friedman assume, portanto, que as k amostras (colunas) sejam provenientes da 
mesma popula^ao ou de populates com a mesma mediana (JLL). Para um teste bilateral, temos que: 


H 0 :^i = M2 = = A4 

H,: fl, * flj, i *j 


Para aplicar a estatistica de Friedman, devemos atribuir postos de 1 a k a cada elemento de cada liiiha. Por 
exemplo, o posto 1 e atribuido a menor observa^ao da linha e o posto N a maior observa^ao. Caso haja empates, 
atribuimos a media dos postos correspondentes. 

A estatistica de Friedman e dada por: 


F a i = 


12 


N-k-(k + 1) ^ 


^(R ; .) 2 -3-lV-(fe + l) 


(8.15) 


em que: 

N: numero de linhas; 
k : numero de colunas; 

Rj : soma dos postos na coluna j. 


Porem, segundo Siegel e Castellan Jr. (2006), quando houver empates entre os postos do mesmo grupo ou 
linha, a estatistica de Friedman precisa ser corrigida para considerar as mudan^as na distribui^ao amostral, con- 
forme segue: 


12-5> > ) 2 -3-N a -*-(* + 1 ) 2 



N-k-(k + 1) + 


(fe-1) 


(8.16) 


em que: 

g { : numero de conjuntos de observa^oes empatadas no i-esimo grupo, incluindo os conjuntos de tamanho 1; 
ty .: tamanho do J-esimo conjunto de empates no i-esimo grupo. 

O valor calculado deve ser comparado com o valor critico da distribui^ao amostral. Quando Nek sao peque- 
nos (fe = 3e3<N<13, oufe = 4e2<N<8oufe = 5e3<N<5), devemos utilizar a tabela K do apendice 
do livro, que apresenta os valores criticos da estatistica de Friedman (FJ, tal que P(F ca i> F c ) = oc (para um teste 
unilateral a direita). Para valores de N e k elevados, a distribui^ao amostral pode ser aproximada pela distribui^ao 
X 2 com V = k - 1 graus de liberdade. 

Portanto, se o valor da estatistica F cal pertencer a regiao critica, isto e, se F cal > F c para N e K pequenos ou F cal 
> jfc para N e K elevados, devemos rejeitar a hipotese nula. Caso contrario, nao rejeitamos H 0 . 

■ EXEMPLO 12 - APLICA^AO DO TESTE DE FRIEDMAN 

Uma pesquisa e realizada para verificar a eficacia do cafe da manha na redu^ao de peso e, para tal, 15 pacientes 
sao acompanhados durantes tres meses. Sao coletados dados referentes ao peso dos pacientes durante tres periodos 
diferentes, conforme mostra a Tabela 8.18: antes do tratamento (AT), pos-tratamento (PT) e depois de tres meses 
de tratamento (D3M).Verifique se o tratamento oferece algum resultado. Considere a = 5%. 
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Tabela 8.18 Peso dos pacientes em cada periodo. 



Periodo 

Paciente 

AT 

PT 

D3M 

1 

65 

62 

58 

2 

89 

85 

80 

3 

96 

95 

95 

4 

90 

84 

79 

5 

70 

70 

66 

6 

72 

65 

62 

7 

87 

84 

77 

8 

74 

74 

69 

9 

66 

64 

62 

10 

135 

132 

132 

11 

82 

75 

71 

12 

76 

73 

67 

13 

94 

90 

88 

14 

80 

80 

77 

15 

73 

70 

68 


■ SOLU^AO 

Passo 1: Como os dados nao seguem distribui^ao normal, o teste de Friedman e uma alternativa a ANOVA para 
verificar se as tres amostras emparelhadas sao extraidas da mesma popula^ao. 

Passo 2: Pela hipotese nula, nao ha diferen^as entre os tratamentos; pela hipotese alternativa, o tratamento ofe- 
rece algum resultado, de modo que: 

H 0 : \k = lk = \h 
H t : 3(ij) A * Up i *j 

Passo 3: O nivel de significance a ser considerado e de 5%. 

Passo 4: Para o calculo da estatistica de Friedman, devemos atribuir postos de 1 a 3 a cada elemento de cada li- 
nha, como mostra a Tabela 8.19. Caso haja empates, atribuimos a media dos postos correspondentes. 


Tabela 8.19 Atribui^ao de postos. 



Periodo 

Paciente 

AT 

PT 

D3M 

1 

3 

2 

1 

2 

3 

2 

1 

3 

3 

1,5 

1,5 

4 

3 

2 

1 

5 

2,5 

2,5 

1 

6 

3 

2 

1 

7 

3 

2 

1 

8 

2,5 

2,5 

1 

9 

3 

2 

1 

10 

3 

1,5 

1,5 

11 

3 

2 

1 

12 

3 

2 

1 

13 

3 

2 

1 

14 

2,5 

2,5 

1 

15 

3 

2 

1 

R i 

43,5 

30,5 

16 

Media dos postos 

2,900 

2,030 

1,067 
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Conforme mostra aTabela 8.19, ha duas observances empatadas no paciente 3, duas no paciente 5, duas no 
paciente 8, duas no paciente 10 e duas no paciente 14. Portanto, o numero total de empates de tamanho 2 e 5 e 
o numero total de empates de tamanho 1 e 35. Logo: 

N gi 

X2>H 5x1+5x23=75 

■•=i i =i 

Como ha empates, o valor real da estatistica de Friedman e calculado a partir da expressao (8.16), conforme 
segue: 


12-^(Rj) 2 -3-N 2 -k-(k + l) 2 



12-(43,5 2 + 30,5 2 + 16 2 )-3-15 2 -3-4 2 


15-3-4 + 


(15-3-75) 


N-k-(k + 1) + 


(fe-1) 


F Ml = 27,527 


Se aplicassemos a expressao (8.15) sem o fator de corre^ao, o resultado do teste de Friedman seria 25,233. 


Passo 5: Como k = 3 e N= 15, sera utilizada a distribui^ao ^ 2 .A regiao critica (RC) da distribui^ao X 2 (Tabela D 
do apendice do livro), considerando OC — 5% e V = k — 1 —2 graus de liberdade, esta representada na Figura 8.51. 



Figura 8.51 Regiao critica do Exemplo 12. 


Passo 6: Decisao — como o valor calculado pertence a regiao critica, isto e, F'a > 5,991, rejeitamos a hipotese 
nula, o que nos permite concluir, ao nivel de confian^a de 95%, que o tratamento oferece resultado. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com aTabela D do apendice do livro, para V = 2 graus de liberdade, a probabilidade asso- 
ciada a estatistica F\ aX — 27,527 e menor do que 0,005 ( P-value < 0,005). 

Passo 6: Decisao - como P < 0,05, devemos rejeitar H 0 . 

8.5.2.1. Resoluqao do teste de Friedman por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tern autoriza^ao da International Business Machines Corporation©. 
Os dados do Exemplo 12 estao disponiveis no arquivo Teste_Friedman.sav. Para a elaboranao do teste de 
Friedman no SPSS, vamos inicialmente clicar em Analyze —> Nonparametric Tests —> Legacy Dialogs 
K Related Samples..., como mostra a Figura 8.52. 
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Figura 8.52 Procedimento para a elaboragao do teste de Friedman no SPSS. 

Na sequencia, devemos inserir as variaveis AT, PT e D3M na caixa Test Variables, e selecionar a op^ao 
Friedman em Test Type, como mostra a Figura 8.53. 



Por fim, vamos clicar em OK para obter os resultados do teste de Friedman. A Figura 8.54 apresenta as medias 
dos postos, semelhantes aos valores calculados naTabela 8.19. 
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Ranks 



Mean Rank 

AT 

2,90 

PT 

2,03 

D3M 

1,07 


Figura 8.54 Media dos postos. 


O valor da estatistica de Friedman e o nivel de significance do teste estao na Figura 8.55. 


Test Statistics 3 


N 

15 

Chi-Square 

27,527 

df 

2 

Asymp. Sig. 

,000 


a. Friedman Test 

Figura 8.55 Resultados do teste de Friedman para o Exemplo 12 no SPSS. 

O valor do teste e 27,527, semelhante ao calculado no Exemplo 12. A probabilidade associada a estatistica e 
0,000 (vimos no Exemplo 12 que essa probabilidade e menor do que 0,005). Como P < 0,05, rejeitamos a hi- 
potese nula, fato que nos permite concluir, ao nivel de confian^a de 95%, que o tratamento oferece resultado. 

8.5.2.2. Resoluqao do teste de Friedman por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se^ao tern autorizagao da StataCorp LP®. 

Os dados do Exemplo 12 estao disponiveis no arquivo Teste_Friedman.dta. As variaveis em estudo deno- 
minam-se at,pt e d3m. 

O teste de Friedman no Stata e elaborado a partir do comando friedman. Para que este comando seja utili- 
zado, devemos inicialmente digitar: 

findit friedman 

e instala-lo no link friedman from http://www.stata.com/stb/stb3 . 

A elabora^ao do teste de Friedman no Stata exige que os dados estejam transpostos. Porem, antes de transpo- 
-los, devemos armazenar as variaveis por meio do comando keep, para que os dados iniciais sejam salvos. Assim, 
devemos digitar: 

keep at pt d3m 

Na sequencia, vamos digitar o comando xpose, que transpoe todas as variaveis em observances e vice-versa: 

xpose, clear 

Apos o comando xpose, podemos verificar que os dados foram transformados em n variaveis (numero de 
observa^oes iniciais). 

Por fim, vamos digitar o seguinte comando: 

friedman vl-vl5 

ja que o atual banco de dados passa a conter 15 variaveis apos a transposing. Por meio da Figura 8.56, podemos 
verificar que a estatistica de Friedman no Stata (25,233) e calculada a partir da expressao (8.15), sem o fator de 
correnao. A probabilidade associada a estatistica e 0,000 (a hipotese nula e rejeitada), o que nos permite concluir, 
ao nivel de confianna de 95%, que ha diferennas entre os tratamentos. 
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. keep at pt d3m 

. xpose, clear 

. friedman vl - vl5 
Friedman = 25.2333 

Kendall = 0.8411 

p-value = 0.0000 


Figura 8.56 Resultados do teste de Friedman para o Exemplo 12 no Stata. 


8.6. TESTES PARA k AMOSTRAS INDEPENDENTES 

Estes testes tern por finalidade avaliar se k amostras independentes sao provenientes da mesma popula^ao. 
Dentre os testes mais utilizados para mais de duas amostras independentes, temos o teste X 2 P ara variaveis de na- 
tureza nominal ou ordinal e o teste de Kruskal-Wallis para variaveis de natureza ordinal. 

8.6.1. Teste x 2 para k amostras independentes 

Enquanto na se^ao 8.2.2 o teste X 2 foi aplicado para uma unica amostra, na se^ao 8.4.1 esse teste foi apli- 
cado para duas amostras independentes. Em ambos os casos, a natureza da(s) variavel(is) e qualitativa (nominal 
ou ordinal). O teste X 2 P ara & amostras independentes (k > 3) e uma extensao direta do teste para duas amos¬ 
tras independentes. 

Os dados sao disponibilizados em uma tabela de contingencia I X J. Enquanto as linhas representam as dife- 
rentes categorias de determinada variavel, as colunas representam os diferentes grupos. A hipotese nula do teste e 
de que as frequences ou propor^oes em cada uma das categorias da variavel analisada e a mesma em cada grupo, 
de modo que: 

H 0 : nao ha diferen^a significativa entre os k grupos 
H a : ha diferen^a significativa entre os k grupos 

A estatistica qui-quadrado e dada pela expressao (8.10), nao reproduzida novamente aqui. 

■ EXEMPLO 13 - APUCA^AO DO TESTE j 2 PARA k AMOSTRAS INDEPENDENTES 

Uma empresa quer avaliar se a produtividade dos funcionarios depende ou nao do turno de trabalho. Para is- 
so, coleta dados de produtividade (baixa, media e alta) de todos os funcionarios em cada turno. Os dados estao na 
Tabela 8.20.Teste a hipotese de que os grupos provenham da mesma popula^o, ao nivel de significancia de 5%. 


Tabela 8.20 Frequencia de respostas por turno (valores esperados entre parentesis). 


Produtividade 

Turno 1 

Turno 2 

Turno 3 

Turno 4 

Total 

Baixa 

50 (59,3) 

60 (51,9) 

40 (44,4) 

50 (44,4) 

200 (200) 

Media 

80 (97,8) 

90 (85,6) 

80 (73,3) 

80 (73,3) 

330 (330) 

Alta 

270 (243,0) 

200 (212,6) 

180 (182,2) 

170 (182,2) 

820 (820) 

Total 

400 (400) 

350 (350) 

300 (300) 

300 (300) 

1350 (1350) 


■ SOLU^AO 

Passo 1: O teste adequado para comparar k amostras independentes (k > 3), no caso de dados qualitativos em 
escala nominal ou ordinal, e o teste X 2 P ara k amostras independentes. 

Passo 2: Pela hipotese nula, a frequencia de individuos em cada uma das categorias do nivel de produtividade e 
a mesma para cada um dos turnos, de modo que: 

H 0 : nao ha diferen^a significativa na produtividade entre os 4 turnos 
H a : ha diferen 9 a significativa na produtividade entre os 4 turnos 
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Passo 3: O nivel de significance a ser considerado e de 5%. 

Passo 4: O calculo da estatistica % 2 e dado por: 

^ _ (50-59,3) 2 , (60-51,9) 2 , (40-44,4) 2 , (50-44,4) 2 _ 
f y~„] — "I - 4" h i- 

59,3 51,9 44,4 44,4 

(80-97,8) 2 (90-85,6) 2 (80-73,3) 2 (80-73,3) 2 

97,8 85,6 73,3 73,3 

(270-243,0) 2 200-212,6) 2 (180-182,2) 2 (170-182,2) 2 

243,0 212,6 182,2 182,2 

= 13,143 

Passo 5: A regiao critica (RC) da distribui^ao X 2 (Tabela D do apendice do livro), considerando OC — 5% e V = 
(3 — 1) • (4 — 1) —6 graus de liberdade, esta representada na Figura 8.57. 



Figura 8.57 Regiao critica do Exemplo 13. 


Passo 6: Decisao — como o valor calculado pertence a regiao critica, isto e,^/ > 12,592, devemos rejeitar a hi- 
potese nula, o que nos permite concluir, ao nivel de confian^a de 95%, que ha diferen^a na produtividade entre 
os 4 turnos. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com a Tabela D do apendice do livro, a probabilidade associada a estatistica ^ caX - 13,143, 
para V = 6 graus de liberdade, esta entre 0,05 e 0,025. 

Passo 6: Decisao — como P < 0,05, rejeitamos H 0 . 

8.6 . 1.1. Resolugao do teste x 2 pora k amostras independentes por meio do software SPSS 

A reprodu^ao das imagens nesta se$ao tern autoriza^ao da International Business Machines Corporation®. 
Os dados do Exemplo 13 estao disponiveis no arquivo Qui-Quadrado_k_Amostras_Independentes.sav. 
Vamos clicar em Analyze Descriptive Statistics -» Crosstabs.... Na sequencia, devemos inserir a variavel 
Produtividade em Row(s) e a variavel Turno em Column(s), como mostra a Figura 8.58. 
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Row(s): 


1 


d Produtividade 


Column{s): 


Turno 


Exact- 


Statistics.. 


Ceils... 


Format- 


Bootstrap.. 



Display layer variables in ta'^le layers 


□ Display clustered bar charts 

□ Suppress tables 


’ OK ] 

Paste 

Reset 

Cancel 

Help 


Figura 8.58 Sele<;ao das variaveis. 


No botao Statistics..., selecionaremos a op^ao Chi-square, conforme mostra a Figura 8.59. Caso desejar- 
mos obter a tabela de distribui^ao de frequencias observadas e esperadas, no botao Cells... devemos selecionar 
as op<poes Observed e Expected em Counts, como mostra a Figura 8.60. Por fim, vamos clicar em Continue 
e OK. Os resultados sao apresentados nas Figuras 8.61 e 8.62. 


| Crosstabs; Statistics 


mm 


HljChi-square 
rNominal- 


□ Contingency coefficient 

□ Phi and Cramer's V 

□ Lambda 

□ Uncertainty coefficient 


□ Correlations 
rOrdinal- 


□ Gamma 

□ Somers’ d 

□ Kendall’s tau-b 

□ Kendall’s tau-c 


[-Nominal by Interval - 
□ Eta 


□ Kappa 

□ Risfc 

□ McNemar 


□ Cochran’s and ManteNHaenszel statistics 
Test common odds ratio equals: |i j 

[continue] 


Cancel 


Help 


Figura 8.59 Selegao da estatfstica y}. 
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Counts 

"Zrtest 

n Compare column proportions 

H Adjust p-va(ues (Bonferroni method) 

0jGbserved 

0 Expected 

D Hide small counts 
Less than js 


rei layes* 

□ Row 

D Column 

D Iota! 

O Un standardized 

□ Standardized 

□ Adjusted standardized 


"Noninteger Weights 

© Round cell counts © Round case weights 
© Truncate cell counts @ Truncate case weights 
© No adjustments 


C Continue] Cancel If Help 


Figura 8.60 Sele^ao da tabela de distribui^ao de frequencias observadas e esperadas. 


Produtividade * Turno Crosstabulation 




Turno 




1,00 

2,00 

3,00 

4,00 

Total 

Produtividade Baixa 

Count 

50 

60 

40 

50 

200 


Expected Count 

59,3 

51,9 

44,4 

44,4 

200,0 

Media 

Count 

80 

90 

80 

80 

330 


Expected Count 

97,8 

85,6 

73,3 

73,3 

330,0 

Alta 

Count 

270 

200 

180 

170 

820 


Expected Count 

243,0 

212,6 

182,2 

182,2 

820,0 

Total 

Count 

400 

350 

300 

300 

1350 


Expected Count 

400,0 

350,0 

300,0 

300,0 

1350,0 


Figura 8.61 Distribui^ao de frequencias observadas e esperadas. 


Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

13,143 a 

6 

,041 

Likelihood Ratio 

13,256 

6 

,039 

Linear-by-Linear 

Association 

5,187 

1 

,023 

N of Valid Cases 

1350 




a. 0 cells (,0%) have expected count less than 5. The minimum 
expected count is 44,44. 

Figura 8.62 Resultados do teste x 1 P ara 0 Exemplo 13 no SPSS. 
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A partir da Figura 8.62, podemos verificar que o valor de % 2 e 13,143, semelhante ao calculado no Exemplo 
13. Para o nivel de confianga de 95%, como P = 0,041 < 0,05 (vimos no Exemplo 13 que essa probabilidade esta 
entre 0,025 e 0,05), devemos rejeitar a hipotese nula, o que nos permite concluir, ao mvel de confian^a de 95%, 
que ha diferen^a na produtividade entre os 4 turnos. 

Tambem faremos uso desses procedimentos no estudo da tecnica bivariada de analise de correspondencia no 
Capitulo 11. 

8.6.1.2. Resoluqao do teste x 2 pora k amostras independentes por meio do software Stata 

A reprodu^ao das imagens apresentadas nesta se$ao tern autoriza^ao da StataCorp LP®. 

Os dados do Exemplo 13 estao dispomveis no arquivo Qui-Quadrado_k_Amostras_Independentes.dta. 
As variaveis em estudo denominam-se produtividade e turno. 

A sintaxe do teste X 2 P ara k amostras independentes e semelhante aquela apresentada na se^ao 8.4.1 para duas 
amostras independentes. Assim, devemos utilizar o comando tabulate, ou simplesmente tab,seguido do nome das 
variaveis em estudo, alem da opnao chi2, ou simplesmente ch. A diferen^a e que, nesse caso, a variavel categorica 
que representa os grupos possui mais de duas categorias. A sintaxe do teste para os dados do Exemplo 13 e, portanto: 

tabulate produtividade turno, chi2 

ou, de maneira simplificada: 

tab produtividade turno, ch 

Os resultados estao na Figura 8.63. O valor da estatistica X 2 , assim como a probabilidade associada a estatistica, 
sao semelhantes aos resultados apresentados no Exemplo 13 e tambem gerados pelo SPSS. 


. tab operadora satisfacao, ch 

| satisfacao 

operadora | baixo medio alto | Total 

-h-h-- 

total health | 40 16 12 | 68 

viva vida | 32 24 16 | 72 

mena saude j 24 32 4 j 60 

- + - + - 

Total | 96 72 32 | 200 

Pearson chi2(4) = 15.8606 Pr = 0.003 

Figura 8.63 Resultados do teste % 2 para o Exemplo 13 no Stata. 

Tambem faremos uso desses procedimentos no estudo da tecnica bivariada de analise de correspondencia no 
Capitulo 11. 

8.6.2. Teste de Kruskal-Wallis 

O teste de Kruskal-Wallis tern por objetivo verificar se k amostras independentes (fe > 2) sao provenientes 
da mesma popula^ao. E uma alternativa a Analise deVariancia quando as hipoteses de normalidade dos dados e 
igualdade das variancias forem violadas, quando o tamanho da amostra for pequeno, ou ainda quando a varia¬ 
vel for medida em escala ordinal. Para k = 2, o teste de Kruskal-Wallis e equivalente ao teste de Mann-Whitney. 

Os dados sao apresentados em uma tabela de dupla entrada com N linhas e k colunas, em que as linhas repre- 
sentam as observances e as colunas representam as diversas amostras ou grupos. 

A hipotese nula do teste de Kruskal-Wallis assume que as k amostras sejam provenientes da mesma populanao 
ou de populates identicas com a mesma mediana (JU ). Para um teste bilateral, temos que: 

Ho:jUi =Lh = ■■■ = Vk 
Hi: 3 (y) n, * jl p i * j 

Seja N o numero total de observances da amostra global. No teste de Kruskal-Wallis, todas as N observances 
sao organizadas em uma unica serie e atribuimos postos a cada elemento da serie. Assim, o posto 1 e atribuido a 
menor observance* da amostra global, o posto 2 a segunda menor observanao e assim sucessivamente, ate o posto 
N. Caso haja empates, atribuimos a media dos postos correspondentes. 

A estatistica de Kruskal-Wallis (H) e dada por: 
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H 12 f ^ 

N-(N+ 1) £ ». 

em que: 

k: numero de amostras ou grupos; 

rij: numero de observances na amostra ou grupo j ; 

N: numero de observances na amostra global; 

Rf. soma dos postos na amostra ou grupo j. 


— 3 • (N +1) 


(8.17) 


Porem, segundo Siegel e Castellan Jr. (2006), quando houver empates entre dois ou mais postos, indepen- 
dente do grupo, a estatistica de Kruskal-Wallis precisa ser corrigida para considerar as mudannas na distribuinao 
amostral, de modo que: 


H cal = 



l_Jil_ 

(n 3 -n) (8.18) 

em que: 

g: numero de agrupamentos de postos diferentes empatados; 
tf. numero de postos empatados no J-esimo agrupamento. 


Segundo Siegel e Castellan Jr. (2006), o objetivo da correnao para empates e aumentar o valor de H, tornando 
o resultado mais significante. 

O valor calculado deve ser comparado com o valor critico da distribuinao amostral. Se k = 3 e n u n 2 , n 3 < 5, 
devemos utilizar aTabela L do apendice do livro, que apresenta os valores criticos da estatistica de Kruskal-Wallis 
(HJ, tal que P(H ca/ > H c ) = a (para um teste unilateral a direita). Caso contrario, a distribuinao amostral pode ser 
aproximada pela distribuinao % 2 com V = k - 1 graus de liberdade. 

Portanto, se o valor da estatistica H cal pertencer a regiao critica, isto e, se H^i > H c para fe = 3e« 1 ,n 2 ,n 3 <5,ou 
Heal > & P ara outros valores, a hipotese nula e rejeitada, o que nos permite concluir que nao ha diferenna entre 
as amostras. Caso contrario, nao rejeitamos H 0 . 

■ EXEMPLO 14 - APLICA^AO DO TESTE DE KRUSKAL-WALLIS 

Um grupo de 36 pacientes com mesmo nivel de estresse e submetido a 3 diferentes tratamentos, isto e, 12 pa- 
cientes sao submetidos ao tratamento A, outros 12 ao tratamento B e os 12 restantes ao tratamento C.Ao final do 
tratamento, cada paciente e submetido a um questionario que avalia o nivel de estresse, classificado em tres fases: 
fase de resistencia para aqueles que apresentam ate 3 pontos, fase de alerta a partir de 6 pontos e fase de exaustao 
a partir de 8 pontos. Os resultados estao naTabela 8.21.Verifique se os tres tratamentos conduzem a resultados 
iguais. Considere nivel de significancia de 1%. 


Tabela 8.21 Nivel de estresse depois do tratamento. 


Tratamento A 

6 

5 

4 

5 

3 

4 

5 

2 

4 

3 

5 

2 

Tratamento B 

6 

7 

5 

8 

7 

8 

6 

9 

8 

6 

8 

8 

Tratamento C 

5 

9 

8 

7 

9 

11 

7 

8 

9 

10 

7 

8 


■ SOLU^AO 

Passo 1: Como a variavel e medida em escala ordinal, o teste apropriado para verificar se as tres amostras inde- 
pendentes sao extraidas da mesma populanao e o teste de Kruskal-Wallis. 

Passo 2: Pela hipotese nula, nao ha diferenna entre os tratamentos; pela hipotese alternativa, ha diferenna entre 
pelo menos dois tratamentos, de modo que: 


H 0 : Mi ^ M2 = AX3 

H,: 3 (l/) * li p i ±j 
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Passo 3: O nivel de significance a ser considerado e de 1%. 

Passo 4: Para o calculo da estatistica de Kruskal-Wallis, devemos atribuir postos de 1 a 36 a cada elemento da 
amostra global, como mostra aTabela 8.22. Em caso de empates, atribuimos a media dos postos correspondentes. 


Tabela8.22 Atribui^ao de postos. 



Soma 

Media 

A 

15,5 

10,5 

6 

10,5 

3,5 

6 

10,5 

. 1,5 

6 

3,5 

10,5 

1,5 

85,5 

7,13 

B 

15,5 

20 

10,5 

26,5 

20 

26,5 

15,5 

32,5 

26,5 

15,5 

26,5 

26,5 

262 

21,83 

C 

10,5 

32,5 

26,5 

20 

32,5 

36 

20 

26,5 

32,5 

35 

20 

26,5 

318,5 

26,54 


Como ha empates, a estatistica de Kruskal-Wallis e calculada a partir da expressao (8.18). Inicialmente, calcu- 
lamos o valor de H: 


H cat = 


12 


k R? 


N-(N + 1) ~ 


'L-±~ 3 < n+ v= 


12 85,5 2 + 262 2 + 318,5 2 


36-37 


12 


-3-37 


H. = 22,181 


Podemos verificar, a partir dasTabelas 8.21 e 8.22, que ha oito grupos empatados. Por exemplo, ha dois gru- 
pos com pontua^ao 2 (com posto de 1,5), dois grupos com pontua^ao 3 (com posto de 3,5), tres grupos com 
pontua^ao 4 (com posto de 6) e assim sucessivamente, ate quatro grupos com pontua^ao 9 (com posto de 32,5). 
A estatistica de Kruskal-Wallis e corrigida para: 


H 


cal 


H 



1 - 


(n-n) 


_ 22,181 

(2 3 - 2)+ (2 s - 2)+ fc 3 - 3)-!-1- (l 3 - 4) 

(36 3 — 36) 


= 22,662 


Passo 5: Como n u n 2 , n 3 > 5, sera utilizada a distribui^ao A regiao critica (RC) da distribui^ao X 2 (Tabela D 
do apendice do livro), considerando 0C= l%eV=fe — 1 = 2 graus de liberdade, esta representada na Figura 8.64. 



Figura 8.64 Regiao critica do Exemplo 14. 


Passo 6: Decisao - como o valor calculado pertence a regiao critica, isto e, H\ al > 9,210, devemos rejeitar a hi- 
potese nula, o que nos permite concluir, ao nivel de confian^a de 99%, que ha diferen^a entre os tratamentos. 

Se utilizarmos o P-value em vez do valor critico da estatistica, os passos 5 e 6 serao: 

Passo 5: De acordo com aTabela D do apendice do livro, para V = 2 graus de liberdade, a probabilidade asso- 
ciada a estatistica H\ al = 22,662 e menor do que 0,005 ( P-value < 0,005). 

Passo 6: Decisao — como P < 0,01, rejeitamos H 0 . 
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8.6.2.1. Resoluqao do teste de Kruskal-Wallis por meio do software SPSS 

A reprodu^ao das imagens nesta se^ao tem autoriza^ao da International Business Machines Corporation®. 
Os dados do Exemplo 14 estao disponiveis no arquivo Teste_Kruskal-Wallis, sav. Para a elabora^ao do tes¬ 
te de Kruskal-Wallis no SPSS, vamos clicar em Analyze —» Nonparametric Tests —» Legacy Dialogs —> K 
Independent Samples..., como mostra a Figura 8.65. 

| File |5t View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Window Help I 


md 


Tratamento [[ Resultadc 

ll 6 j 



Reports ► 

Descriptive Statistics ► 

Tables ► 

Compare Means ► 

General Linear Model ► 

Generalized Linear Models ► 
Mixed Models ► 

Correlate ► 

Regression ► 

LogRnear ► 

Neural Networks ► 

Classic ► 

Di m ensi on Redu ction ► 

Scale ► 

Nonparametric Tests ► 

Forecasting ► 

Survival ► 

Multiple Response ► 

l Missing Value Analysis... 
Multiple Imputation ► 

Complex Samples ► 

Quality Control ► 

1 ROC Curve... 


r I 

var 

1 var 

— 













































ft One Sample... 

U independent Samples... 

Related Samples... 

Legacy Dialogs ► j 




















_ 


var 

var 






























0 Chi-square... 

EH Binomial... 

§ Runs™ 

Q 1-Sample K-S™ 

B 2 independent Samples... 
H K Independent Samples... 


Figura 8.65 Procedimento para a elabora^ao do teste de Kruskal-Wallis no SPSS. 


Na sequencia, devemos inserir a variavel Resultado na caixa Test Variable List, definir os grupos da variavel 
Tratamento e selecionar o teste de Kruskal-Wallis, conforme mostra a Figura 8.66. 



Figura 8.66 Sele^ao da variavel e definite) dos grupos para o teste de Kruskal-Wallis. 
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Vamos clicar em OK para obter os resultados do teste de Kruskal-Wallis. A Figura 8.67 apresenta a media dos 
postos para cada grupo, semelhante aos valores calculados naTabela 8.22. 


Ranks 


Tratamento 

N 

Mean Rank 

Resultado 1 

12 

7,13 

2 

12 

21,83 

3 

12 

26,54 

Total 

36 



Figura 8.67 Postos. 


O valor da estatistica de Kruskal-Wallis e o nivel de significance do teste estao na Figura 8.68. 


Test Statistics 3 b 



Resultado 

Chi-Square 

22,662 

df 

2 

Asymp. Sig. 

,000 


a. Kruskal Wallis 
Test 

b. Grouping 
Variable: 

Tratamento 

Figura 8.68 Resultados do teste de Kruskal-Wallis para o Exemplo 14 no SPSS. 

O valor do teste e 22,662, semelhante ao valor calculado no Exemplo 14. A probabilidade associada a estatis¬ 
tica e 0,000 (vimos no Exemplo 14 que essa probabilidade e menor do que 0,005). Como P < 0,01, rejeitamos a 
hipotese nula, o que nos permite concluir, ao nivel de confian^a de 99%, que ha diferen^a entre os tratamentos. 

S.6.2.2. Resoluqao do teste de Kruskal-Wallis por meio do software Stata 

A reprodu£ao das imagens apresentadas nesta se^ao tern autoriza^ao da StataCorp LP®. 

O teste de Kruskal-Wallis no Stata e elaborado a partir do comando kwallis, por meio da seguinte sintaxe: 

kwallis variavel*, by(grupos*) 

em que o termo variavel* deve ser substituido pela variavel quantitativa ou ordinal estudada e o termo gru¬ 
pos* pela variavel categorica que representa os grupos. 

Vamos abrir o arquivo Teste_Kj*uskal-Wallis.dta que contem os dados do Exemplo 14. Os tres grupos estao 
representados pela variavel tratamento e a caracteristica analisada pela variavel resultado. O comando a ser digitado 
e, portanto: 

kwallis resultado, by(tratamento) 

O resultado do teste esta na Figura 8.69. Analogamente aos resultados apresentados no Exemplo 14 e gerados 
pelo software SPSS, o Stata calcula o valor da estatistica original (22,181) e com fator de corre^ao quando houver 
empates (22,662). A probabilidade associada a estatistica e 0,000, rejeitamos a hipotese nula, o que nos permite 
concluir, ao nivel de confian^a de 99%, que ha diferen^a entre os tratamentos. 
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. kwallis resultado, by(tratamento) | 

Kruskal-Wallis 

equality-of-populations rank test 



| tratam~o | 

Obs | Rank Sum | 



1 1 I 

12 | 85.50 | 

1 2 | 

12 | 262.00 | 

1 3 | 

12 | 318.50 | 

+ 


chi-squared = 

22.181 with 2 d.f. 

probability = 

0.0001 

I chi-squared with ties = 22.662 with 2 d.f. 1 

1 probability = 

0.0001 1 


Figura 8.69 Resultados do teste de Kruskal-Wallis para o Exemplo 14 no Stata. 

8.7. CONSIDERA0ES FINAIS 

Enquanto estudamos os testes parametricos no capitulo anterior, este capitulo foi inteiramente destinado ao 
estudo dos testes nao parametricos. 

Os testes nao parametricos sao classificados de acordo com o mvel de mensura^ao das variaveis e o tama- 
nho da amostra. Desta forma, para cada situa^ao, foram estudados os principais tipos de testes nao parametricos 
existentes. Alem disso, foram estabelecidas as vantagens e desvantagens de cada teste, assim como suas suposi^oes. 

Para cada teste nao parametrico, foram apresentados os principais conceitos inerentes, as hipoteses nula e al- 
ternativa, as respectivas estatisticas e a resolu^ao dos exemplos propostos por meio dos softwares SPSS e Stata. 

Seja qual for o objetivo principal para a aplica^ao, os testes nao parametricos podem propiciar a colheita de 
bons e interessantes frutos de pesquisa uteis a tomada de decisao. O uso correto de cada teste, a partir da escolha 
consciente do software de modelagem, deve sempre ser feito com base na teoria subjacente e sem desprezar a 
experience e a intui^ao do pesquisador. 

8.8. EXERCICIOS 

1) Em quais situates sao aplicados os testes nao parametricos? 

2) Quais as vantagens e desvantagens dos testes nao parametricos? 

3) Quais as diferen^as entre o teste dos sinais e o teste de Wilcoxon para duas amostras emparelhadas? 

4) Qual teste e uma alternativa ao teste t para uma amostra quando a distribui^ao dos dados nao for aderente a 
distribuigao normal? 

5) Um grupo de 20 consumidores fez um teste de degusta^ao com dois tipos de cafe (A e B). Ao final, escolhe- 
ram uma das marcas, como mostra a tabela a seguir. Teste a hipotese nula de que nao ha diferen^a na preferencia 
dos consumidores, ao nivel de significance de 5%. 


— 

Eventos 

Marca A 

Marca B 

Total 

Frequence 

8 

12 

20 

Propor^ao 

0,40 

0,60 

1,00 


6) Um grupo de 60 leitores fez uma avalia^ao de tres livros de romance e, ao final, escolheram uma das tres op- 
^oes, como mostra a tabela a seguir. Teste a hipotese nula de que nao ha diferen^a na preferencia dos leitores, ao 
mvel de significance de 5%. 


Eventos 

Livro A 

Livro B 

Livro C 

Total 

Frequence 

29 

15 

16 

60 

Propor^ao 

0,483 

0,250 

0,267 

1,00 
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7) Um grupo de 20 adolescentes fez a dieta dos pontos por um periodo de 30 dias.Verifique se houve redu^ao 
de peso depois da dieta. Considere OC = 5%. 


Antes 

Depois 

58 

56 

67 

62 

72 

65 

88 

84 

77 

72 

67 

68 

75 

76 

69 

62 

104 

97 

66 

65 

58 

59 

59 

60 

61 

62 

67 

63 

73 

65 

58 

58 

67 

62 

67 

64 

78 

72 

85 

80 


8) Com o objetivo de comparar o tempo medio de atendimento de determinado servi^o em duas agendas banca- 
rias, foram coletados dados de 22 clientes de cada agenda, como mostra a tabela a seguir. Utilize o teste adequado, 
ao nivel de significance de 5%, para testar se as duas amostras provem ou nao de populates com medianas iguais. 


Agenda A 

Agenda B 

6,24 

8,14 

8,47 

6,54 

6,54 

6,66 

6,87 

7,85 

2,24 

8,03 

5,36 

5,68 

7,09 

3,05 

7,56 

5,78 

6,88 

6,43 

8,04 

6,39 

7,05 

7,64 

6,58 

6,97 

8,14 

8,07 

8,3 

8,33 

2,69 

7,14 

6,14 

6,58 

7,14 

5,98 

7,22 

6,22 

7,58 

7,08 

6,11 

7,62 

7,25 

5,69 

7,5 

8,04 
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9) Um grupo de 20 alunos do curso de Administra^ao avaliou o nivel de aprendizado a partir de tres disciplinas 
cursadas na area de Metodos Quantitativos Aplicados, respondendo se o mvel de aprendizado foi alto (1) ou baixo 
(0). Os resultados estao na tabela a seguir.Verifique se a propor^ao de alunos com alto nivel de aprendizado e a 
mesma para cada disciplina. Considere o nivel de significancia de 2,5%. 


Aluno 

A 

B 

c 

1 

0 

1 

1 

2 

1 

1 

1 

3 

0 

0 

0 

4 

0 

1 

0 

5 

0 

1 

1 

6 

i 

1 

1 

7 

1 

0 

1 

8 

0 

1 

1 

9 

0 

0 

0 

10 

0 

0 

0 

11 

1 

1 

1 

12 

0 

0 

1 

13 

1 

0 

1 

14 

0 

1 

1 

15 

0 

0 

1 

16 

1 

1 

1 

17 

0 

0 

1 

18 

1 

1 

1 

19 

0 

1 

1 

20 

1 

1 

1 


10) Um grupo de 15 consumidores avaliou o nivel de satisfa^ao (1 - baixo, 2 - medio e 3 — alto) de tres ser- 
vi^os bancarios diferentes. Os resultados estao na tabela a seguir.Verifique se ha diferen^a entre os tres servi^os. 
Considere o nivel de significancia de 5%. 


Consumidor 

A 

B 

C 

1 

3 

2 

3 

2 

2 

2 

2 

3 

1 

2 

1 

4 

3 

2 

2 

5 

1 

1 

1 

6 

3 

2 

1 

7 

3 

3 

2 

8 

2 

2 

1 

9 

3 

2 

2 

10 

2 

1 

1 

11 

1 

1 

2 

12 

3 

1 

1 

13 

3 

2 

1 

14 

2 

1 

2 

15 

3 

1 

2 






TECNICAS MULTIVARIADAS 
EXPLORATORIAS 


Duas ou mais variaveis podem se relacionar de diversas formas. Enquanto um pesquisador pode ter interesse, 
por exemplo, no estudo da inter-relagao de variaveis categoricas (ou nao metricas), a fim de avaliar a existencia 
de eventuais associates entre suas categorias, outro pesquisador pode desejar criar indicadores de desempenho 
(novas variaveis) a partir da existencia de correlates entre as variaveis originais metricas. Um terceiro ainda 
pode ter interesse na identificagao de grupos homogeneos eventualmente formados a partir da existencia de si- 
milaridades das variaveis entre observances de determinado banco de dados. Em todas essas situates, o pesqui¬ 
sador podera fazer uso de tecnicas multivariadas exploratorias. 

As tecnicas multivariadas exploratorias, tambem conhecidas como tecnicas de interdependencia, podem 
ser utilizadas em provavelmente todos os campos do conhecimento humano em que o pesquisador tenha o ob- 
jetivo de estudar a rela^ao entre variaveis de determinado banco de dados, sem que haja a intengao de se cria- 
rem modelos confirmatorios, ou seja, sem que seja necessaria a elaboragao de inferences sobre os achados para 
outras observances que nao as consideradas na analise propriamente dita, visto que modelos ou equanoes nao sao 
estimados para previsao de comportamento dos dados. Essa caracteristica e crucial para diferenciar as tecnicas es- 
tudadas na Parte II do livro daquelas consideradas de dependencia, como os modelos de regressao simples e mul- 
tipla, os modelos de regressao logistica binaria e multinomial, os modelos de regressao para dados de contagem, 
os modelos de regressao para dados em painel, entre outros, estudados na Parte III. 

Nao existe, portanto, a defininao de uma variavel preditora em modelos exploratorios e, neste sentido, seus 
principals objetivos referem-se a redu^ao ou simplificanao estrutural dos dados, a classifica^ao ou agru- 
pamento de observances e variaveis, a investiganao da existencia de correla^ao entre variaveis metricas ou 
associato entre variaveis categoricas e entre suas categorias, a elaboranao de rankings de desempenho de ob¬ 
servances a partir de variaveis e a construnao de mapas perceptuais. As tecnicas exploratorias sao considera¬ 
das extremamente relevantes para que se desenvolvam diagnosticos acerca do comportamento dos dados em 
analise, e, neste sentido, seus mais diversos procedimentos sao comumente adotados de forma preliminar, ou ate 
mesmo simultanea, a aplicanao de determinado modelo confirmatorio. 

Optamos, com base em criterios didaticos e conceituais, por abordar, na Parte II, os tres principals conjuntos 
de tecnicas multivariadas exploratorias existentes, ficando os capitulos estruturados da seguinte maneira: 


Capitulo 9: Analise de Agrupamentos 

Capitulo 10: Analise Fatorial por Componentes Principals 

Capitulo 11: Analise de Correspondencia Simples e Multipla 


A decisao sobre a tecnica utilizada tambem passa pela escala de mensuranao das variaveis dispomveis no banco 
de dados, que podem ser categoricas ou metricas (ou ate mesmo binarias, um caso particular de categoriza- 
nao). O proprio tipo de questionamento, quando do levantamento dos dados, pode fazer, em algumas situanoes, 
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com que a resposta se de de forma categorica ou metrica, o que ira privilegiar o uso de uma ou mais tecnicas em 
detrimento de outras. Dessa forma, a defini^ao preliminar, clara e precisa dos objetivos de pesquisa e fundamental 
para que sejam obtidas variaveis na escala de mensura^ao adequada a aplica^ao de determinada tecnica que ser- 
vira de ferramenta para o atingimento dos objetivos propostos. 

A Figura II. 1 apresenta a rela^ao entre os capitulos da Parte II e as escalas de mensura^ao das variaveis, para o 
conjunto de tecnicas exploratorias abordadas no livro. 



Figura 11.1 Capitulos da Parte II, tecnicas exploratorias e escalas de mensura^ao das variaveis. 


Enquanto as tecnicas de analise de agrupamentos (Capitulo 9), cujos procedimentos podem ser hie- 
rarquicos ou nao hierarquicos, sao utilizadas quando se deseja estudar comportamentos semelhantes entre 
observa^oes (individuos, empresas, municipios, paises, entre outros exemplos) em rela^ao a determinadas varia¬ 
veis metricas ou binarias e eventual existence de clusters homogeneos (agrupamento de observances), a ana¬ 
lise fatorial (Capitulo 10) pode ser escolhida como a tecnica a ser utilizada quando o intuito principal for a 
crianao de novas variaveis (fatores, ou agrupamento de variaveis) que capturem o comportamento conjunto 
das variaveis originais metricas. Ainda no Capitulo 9, sao apresentados os procedimentos para elabora^ao da 
tecnica de escalonamento multidimensional no SPSS e no Stata, que pode ser considerada uma extensao 
natural da analise de agrupamentos e tern por principal objetivos a determinanao de pos^oes relativas (coor- 
denadas) de cada observanao do banco de dados e a construnao de graficos bidimensionais em que sao proje- 
tadas essas coordenadas. 

Ja as tecnicas de analise de correspondencia (Capitulo 11) sao muito uteis quando o pesquisador tern a 
intennao de estudar eventuais associates entre variaveis e entre suas respectivas categorias. Enquanto a analise 
de correspondencia simples e aplicada para o estudo da rela^ao de interdependence de apenas duas variaveis 
categoricas, o que a caracteriza como tecnica bivariada, a analise de correspondencia multipla pode ser uti¬ 
lizada para um numero maior de variaveis categoricas, sendo, de fato, uma tecnica multivariada. 
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O Quadro II. 1 apresenta os principals objetivos de cada uma das tecnicas exploratorias abordadas na Parte II. 


Quadro 11.1 Tecnicas exploratorias e principais objetivos. 


Tecnica Exploratoria Escala de Mensura^ao 


Principais Objetivos 


Metricas 

Hierarquicos ou 

Binarias 


Analise de 
Agrupamentos 


Nao 

Hierarquicos 


Metricas 

ou 

Binarias 


Analise Fatorial por Metricas 

Componentes Principais 


Simples Categoricas 


Analise de 
Correspondence 


Multipla Categoricas 


Ordenamento e aloca^ao das observances em grupos 
homogeneos internamente e heterogeneos entre si. 

Defininao de uma quantidade interessante de grupos. 

Avalia^ao da representatividade de cada variavel para a 
forma^ao de uma quantidade previamente estabelecida de 
grupos. 

Identificanao, a partir de uma quantidade definida de grupos, 
da aloca^ao de cada observanao. 

Identifica^ao de correlates entre variaveis originais para a 
crianao de fatores que representam a combinanao daquelas 
variaveis (redu^ao ou simplificanao estrutural). 

Verificanao da validade de constructs previamente 
estabelecidos. 

Elaboranao de rankings por meio da cria^ao de indicadores de 
desempenho a partir dos fatores. 

Extragao de fatores ortogonais para posterior uso em tecnicas 
multivariadas confirmatorias que necessitem de ausencia de 
multicolinearidade. 

Avalianao da existencia de associa^ao significativa entre duas 
variaveis categoricas e entre as categorias de cada uma delas. 

Determinagao de coordenadas das categorias para a 
construnao de mapas perceptuais. 

Avalia^ao da existencia de associa^ao significativa entre tres 
ou mais variaveis categoricas e entre as categorias de cada 
uma delas. 

Determinanao de coordenadas das categorias para a 
constru^ao de mapas perceptuais. 


Cada capitulo esta estruturado de acordo com a mesma logica de apresentagao. Inicialmente, introduzimos os 
conceitos pertinentes a cada tecnica, sempre acompanhados da resolu£ao algebrica de exercicios praticos a partir 
de bases de dados elaboradas prioritariamente com foco didatico. Na sequencia, os mesmos exercicios sao resol- 
vidos nos pacotes estatisticos IBM SPSS Statistics Software® e Stata Statistical Software®. Acreditamos que essa 
logica facilite o estudo e o entendimento da utiliza£ao correta de cada uma das tecnicas e a analise dos resultados 
obtidos. Alem disso, a aplica£ao pratica das modelagens em SPSS e Stata tambem traz beneficios ao pesquisador, 
na medida em que os resultados podem, a todo instante, ser comparados com os ja obtidos algebricamente nas 
se^oes iniciais de cada capitulo, alem de propiciar uma oportunidade de manuseio desses importantes softwares. 
Ao final de cada capitulo, sao propostos exercicios complementares, cujas respostas, apresentadas por meio de ou¬ 
tputs gerados em SPSS, estao disponibilizadas ao final do livro. 




CAPITULO 


Analise de Agrupamentos 


Talvez Hamlet esteja certo. Podemos estar vivendo reclusos numa 
casca de noz, mas nos considerando reis do espago infinito . 

Stephen Hawking 


Ao final deste capitulo, voce tera condigoes de: 

• Estabelecer as circunstancias a partir das quais a analise de agrupamentos pode ser utilizada. 

• Saber calcular, entre duas observagoes, as diferentes medidas de distancia (dissimilaridade) para variaveis 
metricas e de semelhanga (similaridade) para variaveis binarias. 

• Compreender os diferentes esquemas de aglomeragao hierarquicos em analise de agrupamentos, bem 
como saber fazer a interpretagao de dendrogramas com foco na alocagao das observagoes em cada grupo. 

• Entender o esquema de aglomeragao nao hierarquico k-means e saber diferencia-lo dos esquemas hierarquicos. 

• Elaborar a analise de agrupamentos de maneira algebrica e por meio do IBM SPSS Statistics Software® e do 
Stata Statistical Software® e interpretar seus resultados. 


9.1. INTRODU^AO 

A analise de agrupamentos representa um conjunto de tecnicas exploratorias muito uteis e que po- 
dem ser aplicadas quando ha a intengao de se verificar a existence de comportamentos semelhantes en¬ 
tre observances (individuos, empresas, municipios, paises, entre outros exemplos) em relagao a determina- 
das variaveis e o objetivo de se criarem grupos, ou clusters, em que prevalega a homogeneidade interna. 
Nesse sentido, esse conjunto de tecnicas, tambem conhecido por analise de conglomerados ou analise de 
clusters, tern por objetivo principal a alocagao de observagoes em uma quantidade relativamente pequena de 
agrupamentos homogeneos internamente e heterogeneos entre si e que representem o comportamento 
conjunto das observagoes a partir de determinadas variaveis. Ou seja, as observagoes de determinado grupo 
devem ser relativamente semelhantes entre si, em relagao as variaveis inseridas na analise, e consideravelmente 
diferentes das observagoes de outros grupos. 

As tecnicas de analise de agrupamentos sao consideradas exploratorias, ou de interdependence, uma vez 
que suas aplicagoes nao apresentam carater preditivo para outras observagoes nao presentes inicialmente na amos- 
tra, e a inclusao de novas observagoes no banco de dados torna necessaria a reaplicagao da modelagem, para que, 
eventualmente, sejam gerados novos agrupamentos. Alem disso, a inclusao de nova variavel tambem pode fazer 
com que haja um rearranjo completo das observagoes nos grupos. 

O pesquisador pode optar por elaborar uma analise de agrupamentos quando tiver o objetivo de ordenar e alocar 
as observagoes em grupos e, a partir de entao, estudar qual a quantidade interessante de clusters formados, ou pode, a 
priori, definir a quantidade de grupos que deseja formar, embasado por determinado criterio, e verificar como se com- 
portam o ordenamento e a alocagao das observagoes naquela quantidade especificada de grupos. Independentemente 
da natureza do objetivo, a analise de agrupamentos continuara exploratoria. Caso um pesquisador tenha a intengao de 
utilizar uma tecnica para, de fato, confirmar o estabelecimento dos grupos e tornar a analise preditiva, podera fazer uso, 
por exemplo, de tecnicas como analise discriminante ou regressao logistica multinomial. 

A elaboragao da analise de agrupamentos nao exige conhecimento de algebra matricial ou de estatistica, ao 
contrario de tecnicas como analise fatorial e analise de correspondence. O pesquisador interessado em aplicar 
uma analise de agrupamentos necessita, a partir da definigao dos objetivos de pesquisa, escolher determinada 
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medida de distancia ou de semelhan^a, que servira de base para que as observances sejam consideradas me- 
nos ou mais proximas, e determinado esquema de aglomera£ao, que devera ser definido entre os metodos 
hierarquicos e nao hierarquicos. Dessa forma, tera cond^oes de analisar, interpretar e comparar os resultados. 

E importante ressaltar que resultados obtidos por meio de esquemas de aglomera^ao hierarquicos e nao hierarqui¬ 
cos podem ser comparados, e, nesse sentido, o pesquisador tem a liberdade de elaborar a tecnica, fazendo uso de um ou 
outro metodo, e reaplica-la, se julgar necessario. Enquanto os esquemas hierarquicos permitem a identifica- 
9 ao do ordenamento e da aloca^ao das observa 9 oes, oferecendo possibilidades para que o pesquisador 
estude, avalie e decida sobre a quantidade de agrupamentos formados, nos esquemas nao hierarquicos, 
parte-se de uma quantidade conhecida de clusters e, a partir de entao, e elaborada a aloca 9 ao das obser- 
va 9 oes nesses clusters , com posterior avalia 9 ao da representatividade de cada variavel para a forma 9 ao 
deles. Portanto, o resultado de um metodo pode servir de input para a realizanao do outro, tornando a analise ciclica. 
A Figura 9.1 apresenta a logica a partir da qual a analise de agrupamentos pode ser elaborada. 

Quando da escolha da medida de distancia ou de semelhan^a e do esquema de aglomera^o, devem ser leva- 
dos em considera£ao aspectos como a quantidade previamente desejada de agrupamentos, definida com base em 
algum criterio de aloca^ao de recursos, bem como determinadas restr^oes que podem levar o pesquisador a op- 
tar por uma solunao especifica. Conforme discutem Bussab et al. (1990), criterios diferentes a respeito de medidas 
de distancia e de esquemas de aglomeranao podem levar a formanoes distintas de agrupamentos, e a homogenei- 
dade desejada pelo pesquisador depende fundamentalmente dos objetivos estipulados na pesquisa. 



Figura 9.1 Logica para elaboranao da analise de agrupamentos. 


Imagine que um pesquisador tenha interesse em estudar a relanao de interdependence entre individuos de uma 
populanao de determinado municipio com base apenas em duas variaveis metricas (idade, em anos, e renda media 
familiar, em R$). Seu intuito e avaliar a eficiencia de programas sociais voltados a area da saude e, com base nessas 
variaveis, propor uma quantidade ainda desconhecida de novos programas voltados a grupos homogeneos de pes- 
soas. Apos a coleta dos dados, o pesquisador elaborou um grafico de dispersao, como o apresentado na Figura 9.2. 



Figura 9.2 Grafico de dispersao de individuos para renda e idade . 
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Com base no grafico da Figura 9.2, o pesquisador identificou quatro dusters, destacando-os em novo grafico 
(Figura 9.3). 



Figura 9.3 Destaque para a formagao de quatro clusters . 


A partir da formagao desses dusters, o pesquisador resolveu elaborar uma analise acerca do comportamento 
das observa^oes em cada grupo ou, mais precisamente, sobre a variabilidade existente dentro dos agrupamentos 
e entre eles, a fim de pode embasar, de maneira clara e consciente, sua decisao a respeito da alocagao dos indi¬ 
viduos nesses quatro novos programas sociais. A fim de ilustrar essa questao, o pesquisador elaborou o grafico da 
Figura 9.4. 



Figura 9.4 llustra^ao sobre a variabilidade dentro dos clusters e entre eles. 

Com base nesse grafico, o pesquisador pode perceber que os grupos formados apresentavam bastante ho- 
mogeneidade interna, com determinado individuo apresentando maior proximidade com outros individuos 
do mesmo grupo do que com individuos de outros grupos. Essa e a essencia fundamental da analise de agru¬ 
pamentos. 

Caso a quantidade de programas sociais a serem oferecidos a popula^ao (quantidade de dusters) ja tivesse sido 
imposta ao pesquisador, por razoes relativas a restri^oes orgamentarias, juridicas ou politicas, ainda assim poderia 
ser utilizada a analise de agrupamentos para, apenas e tao somente, ser determinada a alocagao dos individuos do 
municipio naquela quantidade de programas (grupos). 
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Tendo concluido a pesquisa e alocado os individuos nos diferentes programas sociais voltados a area da saude, o 
pesquisador resolveu elaborar, no ano seguinte, a mesma pesquisa com os individuos do mesmo municipio. Porem, 
nesse interim, um grupo de bilionarios em idade avan^ada resolveu se mudar para a cidade, e, ao elaborar o novo 
grafico de dispersao, o pesquisador percebeu que aqueles quatro clusters nitidamente formados no ano anterior ja 
nao existiam mais, visto que sofreram um processo de fusao quando da inclusao dos bilionarios. O novo grafico de 
dispersao encontra-se na Figura 9.5. 



Figura 9.5 Rearranjo dos dusters na presenna de bilionarios em idade avan^ada. 

Essa nova situa^ao exemplifica a importance de que a analise de agrupamentos seja sempre reaplicada 
quando da inclusao de novas observances (e tambem novas variaveis), o que descaracteriza e inviabiliza to- 
talmente seu poder preditivo, conforme discutimos. 

Mais que isso, esse exemplo demonstra ser recomendavel, antes da elabora^ao de qualquer analise de agrupa¬ 
mentos, que o pesquisador estude o comportamento dos dados e verifique a existence de observa^oes discre- 
pantes em rela^ao a determinadas variaveis, visto que a forma^ao de clusters e bastante sensivel a presen^a 
de outliers. A exclusao ou a reten^ao de outliers na base, entretanto, vai depender dos objetivos de pesquisa e 
da natureza dos dados, ja que, se determinadas observances representarem aberra^oes em termos de valores das 
variaveis, em compara^ao as demais observances, e acabarem por formar clusters pequenos, insignificantes ou ate 
mesmo individuais, podem, de fato, ser excluidas. Por outro lado, caso essas observances representem um ou mais 
grupos relevantes, ainda que diferentes dos demais, devem ser consideradas na analise e, quando da reaplicanao da 
tecnica, podem ser separadas para que outras segmentanoes sejam mais bem estruturadas em novos grupos, for¬ 
mados com maior homogeneidade interna. 

Ressaltamos que os metodos de analise de agrupamentos sao considerados procedimentos estaticos, ja que 
a inclusao de novas observances ou variaveis pode alterar os clusters , tornando obrigatoria a elaboranao de uma 
nova analise. 

Nesse exemplo, percebemos que as variaveis originais a partir das quais sao estabelecidos os grupos sao metricas, 
visto que a analise de agrupamentos partiu do estudo do comportamento de distancias (medidas de dissimi- 
laridade) entre as observances. Em alguns casos, conforme estudaremos ao longo do capitulo, podem ser elaboradas 
analises de clusters a partir do comportamento de semelhan^as (medidas de similaridade) entre observances 
que apresentam variaveis binarias. E comum, entretanto, que pesquisadores fanam uso do incorreto procedimen- 
to de pondera^ao arbitraria em variaveis qualitativas como, por exemplo, variaveis em escala Likert, para, a 
partir de entao, ser aplicada uma analise de agrupamentos. Isso e um erro grave, ja que existem tecnicas explo- 
ratorias destinadas exclusivamente ao estudo do comportamento de variaveis qualitativas, por exemplo, a analise de 
correspondence. 

Historicamente, embora muitas medidas de distancia e de semelhanna remontem ao final do seculo XIX 
e inicio do seculo XX, a analise de agrupamentos, como conjunto de tecnicas mais estruturado, teve origem 
na Antropologia, com Driver e Kroeber (1932), e na Psicologia, com Zubin (1938a e 1938b) e Tryon (1939), 
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conforme discutem Reis (2001) e Favero et al. (2009). Com o reconhecimento dos procedimentos de aglome- 
ragao e classifica^ao de observances como metodo cientifico, aliado ao profundo desenvolvimento computacio- 
nal, verificado principalmente apos a decada de 1960, a utiliza^ao da analise de agrupamentos passa a ser mais 
frequente apos a publica^ao da relevante obra de Sokal e Sneath (1963), em que sao realizados procedimentos 
para comparar as similaridades biologicas de organismos com caracteristicas semelhantes e as respectivas especies. 

Atualmente, a analise de agrupamentos apresenta vasta possibilidade de aplica^ao em areas como comporta- 
mento do consumidor, segmenta^ao de mercado, estrategia, ciencia politica, economia, finan^as, contabilidade, 
atuaria, engenharia, logistica, ciencia da computa^ao, educa^ao, medicina, biologia, genetica, bioestatistica, psico- 
logia, antropologia, demografia, geografia, ecologia, climatologia, geologia, arqueologia, criminologia e pericia, 
entre outras. 

Neste capitulo, trataremos das tecnicas de analise de agrupamentos, com os seguintes objetivos: (1) introduzir 
os conceitos; (2) apresentar, de maneira algebrica e pratica, o passo a passo da modelagem; (3) interpretar os resul- 
tados obtidos; e (4) propiciar a aplica^ao das tecnicas em SPSS e Stata. Seguindo a logica proposta no livro, sera 
inicialmente elaborada a solu^ao algebrica de um exemplo vinculada a apresenta^ao dos conceitos. Somente apos 
a introdu^ao dos conceitos serao apresentados os procedimentos para a elaboranao das tecnicas em SPSS e Stata. 

9.2. ANALISE de agrupamentos 

Muitos sao os procedimentos para que seja elaborada uma analise de agrupamentos, visto que existem dife- 
rentes medidas de distancia ou de semelhanna para, respectivamente, variaveis metricas ou binarias. Alem disso, 
definida a medida de distancia ou de semelhanna, o pesquisador ainda precisa determinar, entre diversas pos- 
sibilidades, o metodo de aglomera^ao das observances, a partir de determinados criterios hierarquicos ou nao 
hierarquicos. Nesse sentido, o que inicialmente parece trivial, ao se desejar agrupar observances em clusters in- 
ternamente homogeneos, pode se tornar um tanto complexo, na medida em que ha uma multiplicidade de 
combinanoes entre diferentes medidas de distancia ou de semelhanna e metodos de aglomeranao. 
E de fundamental importancia, portanto, que o pesquisador defina, com base na teoria subjacente e em seus ob¬ 
jetivos de pesquisa, bem como em sua experiencia e intuinao, os criterios a partir dos quais as observances serao 
alocadas em cada um dos grupos. 

Nas senoes seguintes, apresentaremos o desenvolvimento teorico da tecnica, bem como a elaboranao de um 
exemplo pratico. Nas senoes 9.2.1 e 9.2.2, sao apresentados e discutidos os conceitos pertinentes as medidas de 
distancia e de semelhanna e aos metodos de aglomeranao, respectivamente, sempre acompanhados de resolunoes 
algebricas elaboradas a partir de um banco de dados. 

9.2.1. Defininao das medidas de distancia ou de semelhanna em analise de agrupamentos 

Conforme discutimos, a primeira etapa para a elaboranao de uma analise de agrupamentos consiste em de- 
finir a medida de distancia (dissimilaridade) ou de semelhanna (similaridade) que servira de base para que cada 
observanao seja alocada em determinado grupo. 

As medidas de distancia sao frequentemente utilizadas quando as variaveis do banco de dados forem essen- 
cialmente metricas, visto que, quanto maiores as diferennas entre os valores das variaveis de duas determinadas 
observances, menor a similaridade entre elas ou, em outras palavras, maior a dissimilaridade. 

Ja as medidas de semelhanna sao frequentemente utilizadas quando as variaveis forem binarias, e o que in- 
teressa e a frequencia dos pares de respostas convergentes 1-1 ou 0-0 de duas determinadas observances. Nesse 
caso, quanto maior a frequencia de pares convergentes, maior a semelhanna (similaridade) entre as observances. 

Excenao a essa logica esta na medida de correlanao de Pearson entre duas observances, calculada a partir de 
variaveis metricas, porem com caracteristicas de similaridade, conforme veremos na proxima senao. 

Enquanto estudaremos as medidas de dissimilaridade para variaveis metricas na senao 9.2.1.1, a senao 9.2.1.2 
e destinada ao estudo das medidas de similaridade para variaveis binarias. 

9.2.7.7. Medidas de distancia (dissimilaridade) entre observagdes para variaveis metricas 

Imagine que tenhamos a intennao de calcular, para uma situanao hipotetica, a distancia entre duas determi¬ 
nadas observances i (i — 1, 2) provenientes de um banco de dados que apresenta tres variaveis metricas (X u , X 2i , 
X 3i ), com valores na mesma unidade de medida. Esses dados encontram-se naTabela 9.1. 
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Tabela 9.1 Parte de banco de dados com duas observances e tres variaveis metricas. 


Observa£ao i 


X 2 , 

X 3i 

1 

3,7 

2,7 

9,1 

2 

7,8 

8,0 

1,5 


A partir desses dados, e possivel ilustrarmos a configuranao das duas observances em um espa^o tridimensio¬ 
nal, visto que temos exatamente tres variaveis. A Figura 9.6 apresenta a posi^ao relativa de cada observanao, com 
destaque para a distancia entre elas (d 12 ). 



Figura 9.6 Grafico de dispersao tridimensional para situanao hipotetica com duas observances e tres variaveis. 

A distancia d 12 , que e uma medida de dissimilaridade, pode ser facilmente calculada fazendo uso, por exem- 
plo, de sua projenao sobre o piano horizontal formado pelos eixos X x e X 2 , chamada de distancia d \ 2 , conforme 
mostra a Figura 9.7. 



Figura 9.7 Grafico tridimensional com destaque para a projenao de d u sobre o piano horizontal. 

Dessa forma, com base na conhecida expressao da distancia de Pitagoras para triangulos retangulos, pode- 
mos determinar d 12 por meio da seguinte expressao: 

^2=V(^2) 2 +(^31-^32) 2 

sabendo-se que |X 31 - X 32 | e a distancia das projeqoes verticais (eixo X 3 ) dos pontos 1 e 2. 


(9.1) 
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Entretanto, tambem nao conhecemos a distancia d' 12 e > dessa forma, precisamos novamente recorrer a ex- 
pressao de Pitagoras, agora fazendo uso das distancias das proje^oes dos Pontos 1 e 2 sobre os outros dois eixos 
(X t e X 2 ), conforme mostra a Figura 9.8. 

Logo, podemos escrever que: 

^12 = (^"21 “^22) ( 9 - 2 ) 

e, substituindo (2) em (1), temos que: 

<*12 = V(^u - ■ X 12 ) 2 + (X 21 - X 22 ) 2 + (X 31 - X 32 ) 2 (9 .3) 

que e a expressao da distancia (medida de dissimilaridade) entre os Pontos 1 e 2, tambem conhecida por expres- 

sao da distancia euclidiana. 



Figura 9.8 Proje^ao dos pontos no piano formado por X^eX 2 e destaque para d' 12 - 


Portanto, para os dados do nosso exemplo, temos que: 

d n = 7(3,7 - 7,8) 2 + (2,7 - 8,0) 2 + (9,1 -1,5) 2 = 10,132 

cuja unidade de medida e a mesma das variaveis originais do banco de dados. E importante ressaltar que, caso as 
variaveis nao se apresentem na mesma unidade de medida, um procedimento de padroniza^ao dos dados 
precisara ser elaborado preliminarmente, conforme discutiremos mais adiante. 

Podemos generalizar esse problema para uma situa^ao em que o banco de dados apresente n observa^oes e, 
para cada observa^ao i (i - 1,..., n), valores correspondentes a cada uma das j (j = 1,..., k) variaveis metricas X, 
conforme mostra aTabela 9.2. 


Tabela 9.2 Modelo geral de um banco de dados para elabora^ao da analise de agrupamentos. 



Variavel j 

Observafao i 

X u 

x 2l 


X u 

1 

X n 

*21 


X kl 

2 


X 2 2 

X k 2 





P 

Xu 

x 2b 

X kp 





<1 

X u 

X 2q 

X h 





n 

X ln 

X 2n 

X kn 
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Logo, a expressao (9.4), com base na expressao (9.3), apresenta a defini^ao geral da distancia euclidiana entre 
duas observa^oes quaisquer p e q. 

“ ^) 2 + (X 2p - X 29 ) 2 +... + (X* - X ^) 2 = (9 4) 

Embora a distancia euclidiana seja a mais comumente utilizada em analises de agrupamentos, existem outras 
medidas de dissimilaridade que podem ser utilizadas, e a ado^ao de cada uma delas depende dos pressupostos e dos 
objetivos do pesquisador. Na sequencia, apresentamos outras medidas de dissimilaridade que podem ser utilizadas: 


• Distancia quadratica euclidiana: alternativamente a distancia euclidiana, pode ser utilizada quando as 
variaveis apresentarem pequena dispersao de seus valores, fazendo com que o uso da distancia euclidiana 
ao quadrado facilite a interpreta^ao dos outputs da analise e a aloca^ao das observa^oes nos grupos. Sua ex¬ 
pressao e dada por: 

k 

d M =(X lp -X u ) 2 +(X 2p -X 2i ) 2 + ... + (X kp -X kq ) 2 ^(X jp - X nf (9.5) 

j =1 


Distancia de Minkowski: 

derivam. E dada por: 


e a expressao de medida de dissimilaridade mais geral a partir da qual outras 


pq 




(9.6) 


em que m assume valores inteiros e positivos (m = 1,2,...). Podemos verificar que a distancia euclidiana e um 
caso particular da distancia de Minkowski, quando m = 2. 


• Distancia de Manhattan: tambem conhecida por distancia absoluta ou bloco, nao leva em considera- 
£ao a geometria triangular inerente a expressao inicial de Pitagoras e considera apenas as diferen^as entre os 
valores de cada variavel. Sua expressao, tambem um caso particular da distancia de Minkowski quando m = 1, 
e dada por: 

(9.7) 
j =1 

• Distancia de Chebychev: tambem conhecida por distancia infinita ou maxima, e um caso particular da 
distancia de Manhattan por considerar, para duas determinadas observa^oes, apenas a maxima diferen^a entre 
todas as j variaveis em estudo. Sua expressao e dada por: 


d pi =mix\X jp -X jq 


tambem um caso particular da distancia de Minkowski quando m — «>. 


(9.8) 


• Distancia de Canberra: utilizada para os casos em que as variaveis apresentam apenas valores positivos, as¬ 
sume valores entre 0 e j (numero de variaveis). Sua expressao e dada por: 




(9.9) 


Na presen^a de variaveis metricas, o pesquisador ainda pode fazer uso da correla^ao de Pearson, que, em¬ 
bora nao seja uma medida de dissimilaridade (na realidade, e uma medida de similaridade), pode propiciar infor- 
ma^oes importantes quando o intuito for agrupar linhas do banco de dados. A expressao da correla^ao de Pearson 
entre os valores de duas observa^oes quaisquer p e q pode ser escrita como: 
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ix-x, HX H -x,) 

»’< - rf = — rr— = < 9 - 10 > 

SZ(X„-X r f -|l(^,-x ,) 2 

em que X^ e X^ representam, respectivamente, a media de todos os valores das variaveis para as observances p e q, 
ou seja, a media de cada uma das linhas do banco de dados. 

Podemos no tar, portanto, que estamos lidando com um coeficiente de correla^ao entre linhas, e nao entre 
colunas (variaveis), o mais comum em analise de dados, e seus valores variam entre —1 e 1. O coeficiente de 
correla^ao de Pearson pode ser utilizado como medida de similaridade entre as linhas do banco 
de dados em analises que envolvem, por exemplo, series de tempo, ou seja, para os casos em que as 
observa^oes representam periodos. Nesse caso, o pesquisador pode ter a intennao de estudar correlates en¬ 
tre periodos distintos, para investigar, por exemplo, uma eventual recorrencia de comportamento em linha 
para o conjunto de variaveis, o que pode fazer determinados periodos, nao necessariamente subsequentes, 
serem agrupados por similaridade de comportamento. 

Voltando aos dados apresentados naTabela 9.1, podemos calcular as diferentes medidas de distancia entre as 
observances 1 e 2, dadas pelas expressoes (9.4) a (9.9), assim como a medida de similaridade correlacional, dada 
pela expressao (9.10). ATabela 9.3 apresenta esses calculos e os respectivos resultados. 

Com base nesses resultados, podemos verificar que medidas diferentes geram resultados distintos, o que pode 
fazer as observanoes serem alocadas em diferentes agrupamentos homogeneos, dependendo da escolha da me¬ 
dida para analise, conforme discutemVicini e Souza (2005) e Malhotra (2012). Nesse sentido, e de fundamental 
importancia que o pesquisador sempre embase sua escolha e tenha em mente as razoes que o levaram a utilizar 
determinada medida, em detrimento das demais. A propria utilizanao de mais de uma medida, quando da analise 
do mesmo banco de dados, pode sustentar essa decisao, visto que os resultados podem, nesse caso, ser comparados. 


Tabela 9.3 Medidas de distancia e de similaridade correlacional entre as observanoes 1 e 2. 
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Esse caso fica bastante visivel quando incluimos uma terceira observagao na analise, conforme mostra aTabela 9.4. 
Tabela 9.4 Parte de banco de dados com tres observagoes e tres variaveis metricas. 


Observagao i 

X« 

x 2i 

X 3 , 

1 

3,7 

2,7 

9,1 

2 

7,8 

8,0 

1,5 

3 

8,9 

1,0 

2,7 


Enquanto a distancia euclidiana sugere que as observagoes mais similares (menor distancia) sao a 2 e a 3, por 
meio da distancia de Chebychev as observagoes 1 e 3 sao as mais similares. ATabela 9.5 apresenta essas distancias 
para cada par de observagoes, com destaque, em negrito, para o menor valor de cada distancia. 


Tabela 9.5 Distancia euclidiana e de Chebychev entre os pares de observagoes da Tabela 9.4. 


Distancia 

Par de Observagoes 

1 e 2 

Par de Observagoes 

1 e 3 

Par de Observagoes 

2 e 3 

Euclidiana 

d n - 10,132 

d 12> = 8,420 

d 23 = 7,187 

Chebychev 

d\2 ~ 7,600 

<*i3 = 6,400 

d 23 = 7,000 


Portanto, em determinado esquema de aglomeragao, teriamos, apenas em fungao da escolha da medida de 
dissimilaridade, agrupamentos iniciais distintos. 

Alem da decisao sobre a escolha da medida de distancia, o pesquisador tambem deve verificar se os dados 
precisam ser preliminarmente tratados. Nos exemplos abordados ate o presente momento, tomamos o cuida- 
do de apresentar variaveis metricas sempre com valores na mesma unidade de medida (por exemplo, notas de 
Matematica, Fisica e Quimica, que variam de 0 a 10). Entre tan to, caso as variaveis sejam medidas em unidades 
distintas (por exemplo, renda em R$, escolaridade em anos de estudo e quantidade de filhos), a intensidade das 
distancias entre as observagoes podera ser influenciada arbitrariamente pelas variaveis que eventualmente apre- 
sentarem maior magnitude de seus valores, em detrimento das demais. Nessas situagoes, o pesquisador deve pa- 
dronizar os dados, a fim de que a arbitrariedade das unidades de medida seja eliminada, fazendo cada variavel ter 
a mesma contribuigao sobre a medida de distancia considerada. 

O metodo mais comumente utilizado para padronizagao de variaveis e conhecido por procedimento 
Zscoves , em que, para cada observagao i, o valor de uma nova variavel padronizada ZXj e obtido pela subtragao 
do correspondente valor da variavel original Xj pela sua media e, na sequencia, o valor resultante e dividido pelo 
seu desvio-padrao, conforme apresentado na expressao (9.11). 

ZX, = X * ~ Xj - (9.11) 

J s j 

em que X e 5 representam a media e o desvio-padrao da variavel Xj. Dessa forma, independentemente da mag¬ 
nitude dos valores e da natureza das unidades de medida das variaveis originais de um banco de dados, todas as 
respectivas variaveis padronizadas pelo procedimento Zscoves terao media igual a 0 e desvio-padrao igual a 1, o 
que garante a eliminagao de eventuais arbitrariedades das unidades de medida sobre a distancia entre cada par de 
observagoes. Alem disso, o procedimento Zscoves tern a vantagem de nao alterar a distribuigao da variavel original. 

Portanto, caso as variaveis originais apresentem unidades de medida distintas, as expressoes das medidas de 
distancia (9.4) a (9.9) devem ter os termos X jp e X jq substituidos, respectivamente, por ZX jp e ZX jq . O Quadro 9.1 
apresenta essas expressoes, com base nas variaveis padronizadas. 

Embora a correla^o de Pearson nao seja uma medida de dissimilaridade (na realidade, e uma 
medida de similaridade), e relevante comentar que seu uso tambem requer que as variaveis sejam 
padronizadas por meio do procedimento Zscoves caso nao apresentem as mesmas unidades de me¬ 
dida. Caso o intuito fosse agrupar variaveis, que e o objetivo do proximo capitulo (analise fatorial), a padroni¬ 
zagao de variaveis por meio do procedimento Zscoves seria, de fato, irrelevante, dado que a analise consistiria em 
avaliar a correlagao entre colunas do banco de dados. Como o objetivo do presente capitulo, por outro lado, e 
agrupar linhas do banco de dados que representam as observagoes, a padronizagao das variaveis faz-se necessaria 
para a elaboragao de uma correta analise de agrupamentos. 
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Quadro 9.1 Expressoes das medidas de distancia com variaveis padronizadas. 



9.2.1.2. Medidas de semelhanqa (similaridade) entre observagdes para variaveis binarias 

Imagine agora que tenhamos a intengao de calcular a distancia entre duas determinadas observances i ( i — 1,2) 
provenientes de um banco de dados que apresenta sete variaveis (X u ,..., X 7i ), porem, todas referentes a presenna 
ou ausencia de caracteristicas. Nessa situa^ao, e comum que a presenna ou ausencia de determinada caracteristica 
seja representada por uma variavel binaria, ou dummy , que assume valor 1, caso a caracteristica ocorra, e 0, caso 
contrario. Esses dados encontram-se naTabela 9.6. 

E importante ressaltar que o artificio das variaveis binarias nao gera problemas de ponderanao arbitraria, 
oriunda das categorias das variaveis, ao contrario do que ocorreria caso fossem atribuidos valores discretos (1, 2, 
3, ...) para cada categoria de cada variavel qualitativa. Nesse sentido, caso determinada variavel qualitativa apre- 
sente k categorias, serao necessarias (fe-1) variaveis binarias que representarao a presen^a ou a ausencia de cada 
uma das categorias, ficando todas as variaveis binarias iguais a 0 para o caso de ocorrer a categoria de referenda. 


Tabela 9.6 Parte de banco de dados com duas observances e sete variaveis binarias. 



Portanto, fazendo uso da expressao (9.4), podemos calcular a distancia quadratica euclidiana entre as observa¬ 
nces 1 e 2, conforme segue: 

7 

d l2 =X(X,-X J2 ) 2 = (0 - 0) 2 + (0 -1 ) 2 + (1 -1) 2 +(1 -1) 2 +(0 -1 ) 2 + (1 -0) 2 + (1 -1) 2 = 3 
j =i 

que representa o numero total de variaveis com diferen^as de resposta entre as observances 1 e 2. 

Logo, para duas quaisquer observanoes p e q, quanto maior a quantidade de respostas iguais (0-0 ou 1-1), me- 
nor a distancia quadratica euclidiana entre elas, visto que: 
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Conforme discutem Johnson e Wichern (2007), cada parcela da distancia representada pela expressao (9.12) e 
considerada uma medida de dissimilaridade, uma vez que quantidades maiores de discrepancias de resposta resultam 
em maiores distancias quadraticas euclidianas. Por outro lado, os calculos ponderam igualmente os pares de respos- 
tas 0-0 el-1, sem importancia relativa superior ao par de respostas 1-1 que, em muitos casos, e um indicador mais 
forte de similaridade que o par de respostas 0-0. Por exemplo, ao se agruparem pessoas, o fato de duas delas come- 
rem lagosta todos os dias e uma evidencia mais forte de similaridade que a ausencia dessa caracteristica para ambas. 

Nesse sentido, muitos autores, com o intuito de que fossem criadas medidas de semelhan^a entre observances, 
propuseram a utiliza^ao de coeficientes que levassem em considera^ao a similaridade de respostas 1-1 e 0-0, sem 
que necessariamente esses pares tivessem a mesma importancia relativa. Para que possamos apresentar essas me¬ 
didas, e necessario construir uma tabela de frequences absolutas de respostas 0 e 1 para cada par de observances 
quaisquerp e q, conforme mostra a Tabela 9.7. 


Tabela 9.7 Frequences absolutas de respostas 0 e 1 para duas observances peq. 


Observa^ao p 

Observa^ao q —-— 

1 

0 

Total 

1 

a 

b 

a + b 

0 

c 

d 

c + d 

Total 

a + c 

b + d 

a + b + c + d 


Com base nessa tabela, apresentamos, a seguir, as principals medidas de semelhanna existentes, lembrando que 
a ado£ao de cada uma depende dos pressupostos e dos objetivos do pesquisador. 


• Medida de emparelhamento simples: e a medida de similaridade mais utilizada para variaveis binarias, 
sendo discutida e utilizada por Zubin (1938a) e Sokal e Michener (1958). Essa medida, que iguala os pesos das 
respostas convergentes 1-1 e 0-0, tern sua expressao dada por: 

a + d 

Spq= ^+b+7+d < 9 - 13 ) 


Medida de Jaccard: embora tenha sido primeiramente proposta por Gilbert (1894), levou esse nome por ter 
sido discutida e utilizada em dois seminais trabalhos desenvolvidos por Jaccard (1901,1908). Essa medida nao 
leva em conta a frequencia do par de respostas 0-0, considerada irrelevante. Entretanto, e possivel que ocorra 
uma situa^ao em que todas as variaveis sejam iguais a 0 para duas determinadas observances, ou seja, somente 
exista frequencia na celula d da Tabela 9.7. Nesse caso, softwares como o Stata apresentam medida de Jaccard 
igual a 1, o que faz sentido do ponto de vista de similaridade. Sua expressao geral e (kda por: 

a 


S M = 


a + b + c 


(9.14) 


• Medida de Dice: embora conhecida apenas por esse nome, foi sugerida e discutida por Czekanowski (1932), 
Dice (1945) e Sorensen (1948). E similar ao coeficiente de Jaccard, porem dobra o peso sobre a frequencia de 
pares de respostas em convergencia do tipo 1-1. Assim como naquele caso, softwares como o Stata apresentam 
medida de Dice igual a 1 para os casos em que todas as variaveis sejam iguais a 0 para duas determinadas ob¬ 
servances, evitando, assim, a indefininao do calculo. Sua expressao e dada por: 

2a 


2-a + b + c 


(9.15) 


Medida antiDice: proposta inicialmente por Sokal e Sneath (1963) e Anderberg (1973), a nomenclatura an- 
tiDice decorre do fato de que esse coeficiente dobra o peso sobre as frequences de pares de respostas diferen- 
tes do tipo 1-1, ou seja, dobra o peso sobre as divergences de respostas. Assim como as medidas de Jaccard e 
de Dice, a medida antiDice tambem ignora a frequencia de pares de respostas 0-0. Sua expressao e dada por: 


5 


n 


a 

a + 2 • (b + c) 


(9.16) 


• Medida de Russell e Rao: tambem bastante utilizada, privilegia, no calculo de seu coeficiente, apenas as si- 
milaridades das respostas 1-1. Foi proposta por Russell e Rao (1940), tendo sua expressao dada por: 
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5 


pq 


a 

a + b + c + d 


(9.17) 


Medida de Ochiai: embora conhecida por esse nome, foi proposta inicialmente por Driver e Kroeber 
(1932), sendo udlizada posteriormente por Ochiai (1957). Esse coeficiente e indefinido quando uma ou am- 
bas as observances estudadas apresentarem os valores de todas as variaveis iguais a 0. Entretanto, se ambos os 
vetores apresentarem todos os valores iguais a 0, softwares como o Stata oferecem medida de Ochiai igual a 
1. Se esse fato ocorrer para apenas um dos dois vetores, a medida de Ochiai e considerada igual a 0. Sua ex¬ 
pressao e dada por: 


_ a 

■yj(a + b) • (a + c) 


(9.18) 


• Medida de Yule: proposta por Yule (1900) e utilizada por Yule e Kendall (1950), essa medida de semelhan^a 
para variaveis binarias oferece como resposta um coeficiente que varia de — 1 a 1. Conforme podemos verificar, 
por meio de sua expressao apresentada a seguir, o coeficiente gerado e indefinido se um ou ambos os vetores 
comparados apresentarem todos os valores iguais a 0 ou 1. Softwares como o Stata geram medida deYule igual 
al,sefe = c= 0 (convergencia total de respostas), e igual a — 1, se a = d = 0 (divergencia total de respostas). 


d'd — b'C 

a- d + b* c 


(9.19) 


• Medida de Rogers e Tanimoto: essa medida, que dobra o peso das respostas discrepantes 0-1 e 1-0 em 
relanao ao peso das combinanoes de respostas convergentes do tipo 1-1 e 0-0, foi inicialmente proposta por 
Rogers e Tanimoto (1960). Sua expressao, que passa a ser igual a da medida antiDice quando a frequencia de 
respostas 0-0 for igual a 0 (d = 0), e dada por: 


d + d 

cl + d + 2 • (b + c) 


(9.20) 


• Medida de Sneath e Sokal: ao contrario da medida de Rogers e Tanimoto, essa medida, proposta por Sne- 
ath e Sokal (1962), dobra o peso das respostas convergentes do tipo 1-1 e 0-0 em relanao ao das demais com¬ 
binanoes de respostas (1-0 e 0-1). Sua expressao, que passa a ser igual a da medida Dice quando a frequencia 
de respostas do tipo 0-0 for igual a 0 (d = 0), e dada por: 


2-(d + d) 

pc ^ 2 • (d + d) + b + c 


(9.21) 


• Medida de Hamann: Hamann (1961) propoe essa medida de semelhanna para variaveis binarias com o in- 
tuito de que fossem subtraidas as frequencias de respostas discrepantes (1-0 e 0-1) do total de respostas con¬ 
vergentes (1-1 e 0-0). Esse coeficiente, que varia de -1 (divergencia total de repostas) a 1 (convergencia total 
de respostas), e igual a duas vezes a medida de emparelhamento simples menos 1. Sua expressao e dada por; 


(d + d) — (b + r) 
d+b+c+d 


(9.22) 


Assim como o elaborado na segao 9.2.1.1 em relagao as medidas de dissimilaridade aplicadas a variaveis me- 
tricas, vamos voltar aos dados apresentados naTabela 9.6, com o intuito de calcular as diferentes medidas de simi- 
laridade entre as observances 1 e 2, que apresentam apenas variaveis binarias. Para tanto, devemos, a partir daque- 
la tabela, construir a tabela de frequencias absolutas de respostas 0 e 1 para as referidas observances (Tabela 9.8). 


Tabela 9.8 Frequencias absolutas de respostas 0 e 1 para as observances 1 e 2. 


~—-—Observanao 1 

Observanao 2 —- 

1 

0 

Total 

1 

3 

2 

5 

0 

1 

1 

2 

Total 

4 

3 

7 
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Logo, fazendo uso das expressoes (9.13) a (9.22), temos condi^oes de calcular as medidas de similaridade pro- 
priamente ditas. ATabela 9.9 apresenta os calculos e os resultados de cada medida. 


Tabela 9.9 Medidas de semelhan^a (similaridade) entre as observances 1 e 2. 


Emparelhamento Simples 

3 + 1 

=-= 0,571 

7 

Jaccard 

3 

s^, 2 = — = 0,500 

6 

Dice 

s 12 =-^-2)-= 0,667 

2-(3) + 2 + l 

AntiDice 

s-, 2 — — 0,333 

3 + 2 • (2 +1) 

Russell e Rao 

s„ = - = 0,429 

12 7 

Ochiai 

3 

5-i 2 = --=0,671 

V( 3 + 2)-(3 + l) 

Yule 

3-1 — 2-1 

5,2 =-= 0,200 

3-1 + 2-1 

Rogers e Tanimoto 

3 + 1 

5 12 =-= 0,400 

3+ 1 + 2-(2 + 1) 

Sneath e Sokal 

2-(3 + l) 

5,, = = 0,727 

12 2 • (3 +1) + 2 +1 

Hamann 

(3 + „-(2 + 1) 

7 


Analogamente ao discutido quando do calculo das medidas de dissimilaridade, e visivel que medidas de si¬ 
milaridade diferentes geram resultados distintos, o que pode fazer, quando da elabora^ao do metodo de aglome- 
ra$ao, que as observances sejam alocadas em diferentes agrupamentos homogeneos, dependendo da escolha da 
medida para analise. 

Lembramos que nao faz sentido algum aplicar o procedimento de padroniza£ao Zscores para o 
calculo das medidas de semelhan^a discutidas nesta senao, visto que as variaveis utilizadas para a ana¬ 
lise de agrupamentos sao binarias. 

Neste momento, e importante ressaltar que, em vez de serem utilizadas medidas de semelhan^a para a defini- 
nao de clusters quando da presen^a de variaveis binarias, e bastante comum que se definam agrupamentos a partir 
de coordenadas de cada observa^ao, que podem ser geradas quando da elabora^ao de uma analise de corres¬ 
pondence (simples ou multipla), tecnica exploratoria aplicada apenas e tao somente a bancos de dados que ofe- 
recem variaveis qualitativas, com o intuito de elaborar mapas perceptuais construidos com base nas frequences 
das categorias de cada uma das variaveis em analise. Essa tecnica sera estudada no Capitulo 11. 

Definida a medida a ser utilizada, com base nos objetivos de pesquisa, na teoria subjacente e em sua experien¬ 
ce e intui^ao, o pesquisador deve partir para a defini^ao do esquema de aglomera^ao. Os principais esquemas em 
analise de agrupamentos serao estudados na proxima se^ao. 

9.2.2. Esquemas de aglomera^ao em analise de agrupamentos 

Conforme discutemVicini e Souza (2005) e Johnson eWichern (2007), na analise de agrupamentos, a escolha 
do metodo de aglomera^ao, tambem conhecido como esquema de aglomerasao, e tao importante quanto a 
defini^ao da medida de distancia (ou de semelhanga), e essa decisao tambem precisa ser tomada com base naquilo 
que o pesquisador pretende em termos de objetivos de pesquisa. 

Os esquemas de aglomera^ao podem ser classificados, basicamente, em dois tipos, conhecidos por hierarqui- 
cos e nao hierarquicos.Enquanto os primeiros caracterizam-se por privilegiar uma estrutura hierarquica (passo 
a passo) para a forma^ao dos agrupamentos, os esquemas nao hierarquicos utilizam algoritmos para maximizar a 
homogeneidade dentro de cada agrupamento, sem que haja um processo hierarquico para tal. 
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Os esquemas de aglomeranao hierarquicos podem ser aglomerativos ou divisivos, dependendo do modo 
como e iniciado o processo. Caso todas as observances sejam consideradas separadas e, a partir de suas distancias 
(ou semelhan^as), sejam formados grupos ate que se chegue a um estagio final com apenas um agrupamento, 
entao esse processo e conhecido como aglomerativo. Dentre os esquemas hierarquicos aglomerativos, sao mais 
comumente utilizados aqueles que apresentam metodo de encadeamento do tipo unico ( nearest neighbor ou 
single linkage), completo {furthest neighbor ou complete linkage ) ou medio (between groups ou average linka¬ 
ge). Por outro lado, caso todas as observa^oes sejam consideradas agrupadas e, estagio apos estagio, sejam formados 
grupos menores pela separa^ao de cada observagao, ate que essas subdivides gerem grupos individuais (ou seja, 
observa^oes totalmente separadas), entao, estaremos diante de um processo divisive. 

Ja os esquemas de aglomeranao nao hierarquicos, entre os quais o mais popular e o procedimento k-means, 
ou k-medias, referem-se a processos em que sao definidos centros de aglomeranao a partir dos quais sao aloca- 
das as observances pela proximidade a eles. Ao contrario dos esquemas hierarquicos, em que o pesquisador pode 
estudar as diversas possibilidades de aloca^ao das observances e ate definir uma quantidade interessante de clus¬ 
ters com base em cada um dos estagios de agrupamento, um esquema de aglomeranao nao hierarquico requer a 
estipulanao, a priori , da quantidade de clusters a partir da qual serao definidos os centros de aglomeranao e aloca- 
das as observances. E por essa razao que se recomenda a elaboranao de um esquema de aglomeranao hierarquico 
preliminarmente a de um esquema nao hierarquico, quando nao ha uma estimativa razoavel da quantidade de 
clusters que podem ser formados a partir das observances do banco de dados e com base nas variaveis em estudo. 

A Figura 9.9 apresenta a logica dos esquemas de aglomeranao em analise de agrupamentos. 



Figura 9.9 Esquemas de aglomeranao em analise de agrupamentos. 


Enquanto estudaremos os esquemas de aglomeranao hierarquicos na senao 9.2.2.1, a senao 9.2.2.2 e destinada 
ao estudo do esquema de aglomeranao nao hierarquico k-means. 

9.2.2.1. Esquemas de aglomeraqao hierarquicos 

Nesta senao, apresentaremos os principais esquemas hierarquicos aglomerativos, em que sao formados agru¬ 
pamentos cada vez maiores a cada estagio de aglomeranao pela junnao de novas observanoes ou grupos, em fun- 
nao de determinado criterio (metodo de encadeamento) e com base na medida de distancia escolhida. Na senao 
9.2.2.1.1 serao apresentados os principais conceitos pertinentes a esses esquemas, e na senao 9.2.2.1.2 sera elabo- 
rado um exemplo pratico resolvido algebricamente. 

92.2.1.1. Notanao 

Tres sao os principais metodos de encadeamento em esquemas hierarquicos aglomerativos, conforme mos- 
tra a Figura 9.9: metodo de encadeamento unico (nearest neighbor ou single linkage), completo {furthest neighbor ou 
complete linkage) e medio (between groups ou average linkage). 

ATabela 9.10 apresenta, de forma ilustrativa, a distancia a ser considerada em cada estagio de aglomeranao, em 
funnao do metodo de encadeamento escolhido. 
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Tabela 9.10 Distancia a ser considerada em fun^ao do metodo de encadeamento. 


Metodo de 
Encadeamento 

Hustrafao 

Distancia 

(Dissimilaridade) 

Unico 

(Nearest Neighbor 

ou 

Single Linkage) 

^-\ "v 

/ • ' / • x 
' 1 \ _—T3 4 x 

x x % / 

\ 2 ✓ \ 5 y 

^ ^ . X ^ ^ . X 

^23 

Completo 

(Furthest Neighbor 

ou 

Complete Linkage) 


^15 

Medio 

(Between Groups 

ou 

Average Linkage) 


d l3 +d u + d x 5 + d 23 + d 2A +d 25 

\ -*5/ 

6 


O metodo de encadeamento unico privilegia as menores distancias (dai vem a nomenclatura nearest neighbor) 
para que sejam formados novos agrupamentos a cada estagio de aglomera^ao pela incorpora^ao de observa^oes 
ou grupos. Nesse sentido, sua aplica^ao e recomendavel para os casos em que as observa9oes sejam 
relativamente afastadas, isto e, diferentes, e deseja-se formar agrupamentos levando-se em considera^ao um 
minimo de homogeneidade. Por outro lado, sua analise fica prejudicada quando da existencia de observa^oes ou 
agrupamentos pouco afastados entre si, conforme mostra a Figura 9.10. 

Ja o metodo de encadeamento completo vai em dire^ao contraria, ou seja, privilegia as maiores distancias en¬ 
tre as observa^oes ou grupos para que sejam formados novos agrupamentos (dai, a nomenclatura furthest neighbor) 
e, dessa maneira, sua ado^ao e recomendavel para os casos em que nao exista consideravel afastamento 
entre as observa9oes e o pesquisador tenha a necessidade de identificar heterogeneidades entre elas. 

Por fim, no metodo de encadeamento medio dois grupos sofrem fusao com base na distancia media entre 
todos os pares de observa9oes pertencentes a esses grupos (dai, a nomenclatura average linkage). Dessa forma, 
embora ocorram alteranoes no calculo das medidas de distancia entre os agrupamentos, o metodo de encadeamen¬ 
to medio acaba por preservar a solu^ao de ordenamento das observanoes em cada grupo, oferecida pelo metodo 
de encadeamento unico, caso haja um consideravel afastamento entre as observa£oes. O mesmo vale em rela^ao a 
S 0 IU 9 S 0 de ordenamento oferecida pelo metodo de encadeamento completo, caso as observa£oes sejam bastante 
proximas entre si. 



Figura 9.10 Metodo de encadeamento unico - Analise prejudicada na existencia 
de observances ou agrupamentos pouco afastados. 
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Johnson e Wichern (2007) propoem uma sequencia logica de passos para que se facilite o entendimento da 
analise de agrupamentos, elaborada por meio de determinado metodo hierarquico aglomerativo: 

1. Sendo n a quantidade de observances de um banco de dados, devemos dar inicio ao esquema de aglome¬ 
ranao com exatamente n grupos individuals (estagio 0), de modo que teremos inicialmente uma matriz de 
distancias (ou de semelhan^as) D 0 composta pelas distancias entre cada par de observa^oes. 

2 . No primeiro estagio, devemos escolher a menor distancia entre todas as que compdem a matriz D 0 , ou 
seja, aquela que une as duas observances mais similares. Nesse exato momento, deixamos de ter n grupos 
individuals para termos (n— 1) grupos, sendo um deles formado por duas observances. 

3. No estagio de aglomeranao seguinte, devemos repetir o estagio anterior, porem agora levando em conside- 
ra^ao a distancia entre cada par de observances e entre o primeiro grupo ja formado e cada uma das demais 
observances, com base em um dos metodos de encadeamento adotado. Em outras palavras, teremos, apos o 
primeiro estagio de aglomeranao, uma matriz D t , com dimensoes (n— 1) x (n — 1), em que uma das linhas 
sera representada pelo primeiro par agrupado de observances. No segundo estagio, consequentemente, um 
novo grupo sera formado pelo agrupamento de duas novas observances ou pela junnao de determinada 
observanao ao primeiro grupo ja formado anteriormente, no primeiro estagio. 

4. O processo anterior deve ser repetido (n — 1) vezes, ate que reste apenas um unico grupo formado por 
todas as observances. Em outras palavras, no estagio (n - 2) teremos uma matriz D n _ 2 que contera apenas 
a distancia entre os dois ultimos grupos remanescentes, antes da fusao final. 

5. Por fim, a partir dos estagios de aglomeranao e das distancias entre os agrupamentos formados, e possivel 
construir um grafico em formato de arvore, que resume o processo de aglomeranao e explicita a alocanao de 
cada observanao em cada agrupamento. Esse grafico e conhecido como dendrograma ou fenograma. 

Portanto, os valores que compoem as matrizes D de cada um dos estagios serao funnao da medida de distancia 
escolhida e do metodo de encadeamento adotado. Imagine, em determinado estagio de aglomeranao s, que um 
pesquisador agrupe dois clusters M e N ja formados anteriormente, contendo, respectivamente, men observances, 
a fim de que seja formado o cluster MN. Na sequencia, tern a intennao de agrupar MN com outro cluster W, com 
w observances. Como sabemos que a decisao de escolha do proximo agrupamento sera sempre a menor distancia 
entre cada par de observances ou grupos nos metodos hierarquicos aglomerativos, o esquema de aglomeranao 
sera de fundamental importancia para que sejam analisadas as distancias que comporao cada matriz D s . A partir 
dessa logica, e com base naTabela 9.10, apresentamos, a seguir, o criterio de calculo da distancia, inserida na ma¬ 
triz entre os clusters MN e W, em funnao do metodo de encadeamento: 

• Metodo de Encadeamento Unico ( Nearest Neighbor ou Single Linkage) 

d(MN) w = d nw } (9.23) 

em que d MW e d NW sao as distancias entre as observances mais proximas dos clusters M e W e dos clusters N e W, 
respectivamente. 

• Metodo de Encadeamento Completo ( Furthest Neighbor ou Complete Linkage) 

d(MN)W = nia x{d MW ; d NW } (9.24) 

em que d MW e d NW sao as distancias entre as observances mais distantes dos clusters M e W e dos clusters N e W 9 
respectivamente. 

• Metodo de Encadeamento Medio ( Between Groups ou Average Linkage) 

m+n w 

w= <»:»!•« (9 - 25) 

em que d pq representa a distancia entre qualquer observanao p do cluster MN e qualquer observanao q do cluster 
W , e m+n e w representam, respectivamente, a quantidade de observances nos clusters MN e W. 

Na proxima senao, apresentaremos um exemplo pratico que sera resolvido algebricamente, a partir do qual os 
conceitos referentes aos metodos hierarquicos aglomerativos poderao ser fixados. 
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9.2.2.1.2. Exemplo pratico de analise de agrupamentos com esquemas de aglomera^ao hierarquicos 

Imagine que o professor de uma faculdade, bastante preocupado com a capacidade de aprendizado dos alunos 
em sua disciplina de metodos quantitativos, tenha o interesse em aloca-los em grupos com a maior homogenei- 
dade possivel, com base nas notas obtidas no vestibular em disciplinas consideradas quantitativas (Matematica, 
Fisica e Quimica). 

Nesse sentido, o professor fez um levantamento sobre essas notas, que variam de 0 a 10, e, dado que realizara 
uma analise de agrupamentos inicialmente de maneira algebrica, resolveu trabalhar, para efeitos didaticos, apenas 
com cinco alunos. O banco de dados encontra-se naTabela 9.11. 


Tabela 9.11 Exemplo: Notas de Matematica, Fisica e Quimica no vestibular. 


Estudante 

(Observa^ao) 

Nota de Matematica 

(X l; ) 

Nota de Fisica 
(X 2l ) 

Nota de Quimica 

(X 3i ) 

Gabriela 

3,7 

2,7 

9,1 

Luiz Felipe 

7,8 

8,0 

1,5 

Patricia 

8,9 

1,0 

2,7 

Ovidio 

7,0 

1,0 

9,0 

Leonor 

3,4 

2,0 

5,0 


Com base nos dados obtidos, e construido o grafico da Figura 9.11, e, como as variaveis sao metricas, sera ado- 
tada a medida de dissimilaridade conhecida por distancia euclidiana para a analise de agrupamentos. Alem disso, 

como todas as variaveis apresentam valores na mesma unidade de medida (notas de 0 a 10), nao 
sera necessaria, nesse caso, a elabora^ao da padroniza^ao pelo procedimento Zscores. 



Figura 9.11 Grafico tridimensional com posi^ao relativa dos cinco estudantes. 

Nas proximas se^oes, serao elaborados os esquemas hierarquicos aglomerativos com base na distancia 
euclidiana, por meio dos tres metodos de encadeamento estudados. 

9.2.2.1.2.1. Metodo de encadeamento unico {nearest neighbor ou single linkage) 

A partir dos dados apresentados naTabela 9.11, iremos, neste momento, elaborar uma analise de agrupamen¬ 
tos por meio de um esquema de aglomera^ao hierarquico com metodo de encadeamento unico. Inicialmente, 
definimos a matriz D 0 , composta pelas distancias euclidianas (dissimilaridades) entre cada par de observa^oes, 
confer me segue: 
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r 

Gabriela 

Luiz Felipe 

Patricia 

Ovidio 

Leonor 


Gabriela 

0,000 






Luiz Felipe 

10,132 

0,000 





D 0 = Patricia 

8,420 

7,187 

0,000 




Ovidio 

1 

| 3,713 

1 .... 

10,290 

6,580 

0,000 



Leonor 

4,170 

8,223 

6,045 

5,474 

0,000 


V 

— 







E importante mencionar que, neste momento inicial, cada observa^ao e considerada um cluster individual, ou 
seja, no estagio 0, temos 5 clusters (tamanho da amostra). Em destaque, na matriz D 0 , esta a menor distancia entre 
todas as observagoes e, portanto, serao inicialmente agrupadas, no primeiro estagio, as observa^oes Gabriela e 
Ovidio, que passam a formar um novo cluster . 

Para que seja elaborado o proximo estagio de aglomera^ao, devemos construir a matriz D 1? em que sao cal- 
culadas as distancias entre o cluster Gabriela-Ovidio e as demais observances, ainda isoladas. Dessa forma, por 
meio do metodo de encadeamento unico e com base na expressao (9.23), temos que: 

^(Gabriela-Ovidio)Luiz Felipe = m ^ n {10,132; 10,290} = 10,132 
^(Gabriela-Ovidio)Patricia = mfn {8,420; 6,580} = 6,580 
^(Gabriela-Ovidio)Leonor = 111111 {4,170; 5,474} = 4,170 
A matriz D t encontra-se a seguir: 



Gabriela 

Ovidio 

Luiz Felipe 

Patricia 

Leonor 


Gabriela 

Ovidio 

0,000 





Luiz Felipe 

10,132 

0,000 




D,= 






Patricia 

6,580 

7,187 

0,000 



Leonor 

j 1 . 

4,170 

i 

| 

8,223 

6,045 

0,000 


V 





_y 


Da mesma forma, na matriz r>i esta em destaque a menor distancia entre todas. Portanto, no segundo estagio, 
e inserida a observa^ao Leonor no cluster ja formado Gabriela-Ovidio. As observances Luiz Felipe e Patricia 
permanecem ainda isoladas. 

Para que possamos dar o proximo passo, devemos construir a matriz D 2 , em que sao calculadas as distancias 
entre o cluster Gabriela-Ovidio-Leonor e as duas observances remanescentes. Analogamente, temos que: 

^(Gabriela-Ovidio-Leonor)Luiz Felipe — {10,132; 8,223} ~ 8,223 

^(Gabriela-Ovidio-Leonor)Patricia ttlltl {6,580; 6,045} 6,045 


A matriz D 2 pode ser escrita como: 
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r 


Gabriela 






Ovidio 

Luiz Felipe 

Patricia 




Leonor 




Gabriela 




— 


Ovidio 


0,000 




Leonor 






D 2 = Luiz Felipe 


8,223 

0,000 



Patricia 

i 

6,045 

i 

7,187 

0,000 


V 




— 



No terceiro estagio de aglomera^ao, e incorporada a observa^ao Patricia no cluster Gabriela-Ovidio- 
Leonor, visto que a correspondente distancia e a menor entre todas as apresentadas na matriz D 2 . Portanto, po- 
demos escrever a matriz D 3 , que se encontra na sequencia, levando em considera^ao o seguinte criterio: 


^(Gabriela-Ovidio-Leonor-Patricia) Luiz Felipe min {8,223; 7,187} = 7,187 


r 


Gabriela 





Ovidio 

Luiz Felipe 




Leonor 




Patricia 



Gabriela 





Ovidio 


0,000 



Leonor 




D 3 = Patricia 





Luiz Felipe 


7,187 

0,000 


V 






Por fim, no quarto e ultimo estagio, todas as observances estao alocadas no mesmo agrupamento, encerrando- 
-se, assim, o processo hierarquico. A Tabela 9.12 apresenta um resumo desse esquema de aglomera^ao elaborado 
por meio do metodo de encadeamento unico. 


Tabela 9.12 Esquema de aglomera^ao pelo metodo de encadeamento unico. 


Estagio 

Agrupamento 

Observafao 

Agrupada 

Menor Distancia 
Euclidiana 

1 

Gabriela 

Ovidio 

3,713 

2 

Gabriela - Ovidio 

Leonor 

4,170 

3 

Gabriela - Ovidio — Leonor 

Patricia 

6,045 

4 

Gabriela — Ovidio — Leonor — Patricia 

Luiz Felipe 

7,187 


Com base nesse esquema de aglomera^ao, podemos construir um grafico em formato de arvore, conhecido 
como dendrograma ou fenograma, cujo intuito e ilustrar o passo a passo dos agrupamentos e facilitar a visu- 
aliza^ao da aloca^ao de cada observa^ao em cada estagio. O dendrograma encontra-se na Figura 9.12. 
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Distancia euclidiana 

01 2345678 

f-1-1-1-i-1-1-1-1 

Gabriela - 

Ovidio - 

Leonor -- 

Patricia - 

Luiz Felipe - 

V _ J 

Figura 9.12 Dendrograma - Metodo de encadeamento unico. 

Por meio das Figuras 9.13 e 9.14, temos condi^oes de interpretar o dendrograma construido. 

Inicialmente, tra^amos tres linhas (I, II e III) ortogonais as linhas do dendrograma, conforme mostra a 
Figura 9.13, que permitem identificar as quantidades de agrupamentos em cada estagio de aglomera^ao, bem 
como as observances em cada cluster. 

Assim, a linha I “corta” o dendrograma imediatamente apos o primeiro estagio de aglomera^ao e, neste mo¬ 
menta, podemos verificar que existem quatro clusters (quatro encontros com as linhas horizontais do dendrogra¬ 
ma), um deles formado pelas observances Gabriela e Ovidio, e os demais, pelas observances individuals. 

Ja a linha II encontra tres linhas horizontais do dendrograma, o que significa que, apos o segundo estagio, em 
que foi incorporada a observa^ao Leonor ao agrupamento ja formado Gabriela-Ovidio, existem tres clusters. 

Por fim, a linha III e desenhada imediatamente apos o terceiro estagio, em que ocorre o agrupamento da ob¬ 
servance Patricia com o cluster Gabriela-Ovidio-Leonor. Como sao identificados dois encontros entre essa 
linha e as linhas horizontais do dendrograma, verificamos que a observa^ao Luiz Felipe permanece isolada, en- 
quanto as demais for mam um unico agrupamento. 


Distancia euclidiana 

3 4 5 6 7 8 

I-1-1-1-1-1 

i i i 

Gabriela - 1 1 ! \ 


Ovidio 


Leonor - 1 — 1 i i_ 

i i i 

t i t 

i t i 

Patricia -i- 1 - i 

i i i 

i i i 

i i i 

Luiz Felipe -]-1-1- 

i 11 111 

V_;_ 

Figura 9.13 Interpreta^ao do dendrograma - Quantidade de clusters e aloca^ao das observances. 


Alem de propiciar o estudo sobre a quantidade de clusters em cada estagio de aglomera^ao, bem como sobre 
a aloca^ao das observances, o dendrograma tambem permite que o pesquisador analise a magnitude dos saltos 
de distancia para que se estabelenam os agrupamentos. Um salto com magnitude elevada, em comparanao aos 
demais, pode indicar que determinada observa^ao ou cluster consideravelmente distintos estejam incorporados a 
agrupamentos j a formados, o que fornece subsidios ao estabelecimento de uma solunao da quantidade de agru¬ 
pamentos sem a necessidade de um proximo estagio de aglomeranao. 

Embora se saiba que a determina^ao taxativa de uma solu^ao da quantidade de clusters pode prejudicar a ana- 
lise, o estabelecimento de um indicio dessa quantidade, dados a medida de distancia utilizada e o metodo de en¬ 
cadeamento adotado, pode fazer o pesquisador compreender mais razoavelmente as caracteristicas das observa¬ 
nces que levaram a esse fata. Alem disso, como a quantidade de agrupamentos e importante para a elaboranao de 
esquemas de aglomeranao nao hierarquicos, essa informanao (considerada output do esquema hierarquico) pode 
servir de input para o procedimento k-means. 
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A Figura 9.14 apresenta tres saltos de distancia (A, B eC), referentes a cada um dos estagios de aglomera^ao, 
e, a partir de sua analise, podemos verificar que o salto B, que representa a incorpora^ao da observa^ao Patricia 
ao cluster ja formado Gabriela-Ovidio-Leonor, e o maior dos tres. Assim, caso haja a inten^ao de definir uma 
quantidade interessante de agrupamentos nesse exemplo, o pesquisador pode optar pela solu^ao com tres clusters 
(linha II da Figura 9.13), sem o estagio em que e incorporada a observa^ao Patricia, visto que possivelmente 
apresenta caracteristicas nao tao homogeneas que inviabilizam sua inclusao no cluster ja formado, dado o grande 
salto de distancia. Nesse caso, portanto, teriamos um agrupamento formado por Gabriela, Ovidio e Leonor, 
outro formado apenas por Patricia e um terceiro formado apenas por Luiz Felipe. 

8 


Figura 9.14 lnterpreta$ao do dendrograma - Saltos de distancia. 

Um criterio muito util para a identifica^ao da quantidade de clusters , quando do uso de medidas 
de dissimilaridade em metodos aglomerativos, consiste em identificar um consideravel salto de distancia 
(quando possivel) e definir a quantidade de agrupamentos formados no estagio de aglomera^ao imediatamente 
anterior ao grande salto, visto que saltos muito elevados podem incorporar observances com caracte¬ 
risticas nao tao homogeneas. 

Alem disso, e relevante tambem comentar que, caso os saltos de distancia de um estagio para outro sejam 
pequenos, pela existencia de variaveis com valores muito proximos para as observa^oes, o que pode dificultar 
a leitura do dendrograma, o pesquisador podera fazer uso da distancia quadratica euclidiana, a fim 
de que os saltos fiquem mais nitidos e explicitados, facilitando a identifica^ao dos agrupamentos no 
dendrograma e propiciando melhores argumentos para a tomada de decisao. 

Softwares como o SPSS apresentam dendrogramas com medidas de distancia rescalonadas, a fim de facilitar a 
interpreta^ao da aloca^ao de cada observagao e a visualiza^ao dos grandes saltos de distancia. 

A Figura 9.15 apresenta, de forma ilustrativa, como podem ser estabelecidos os agrupamentos apos a elabora- 
£ao do metodo de encadeamento unico. 



Distancia euclidiana 

3 4 5 6 7 

i- 1 -1-1-r 



Figura 9.15 Sugestao de agrupamentos formados apos o metodo de encadeamento unico. 
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Na sequencia, elaboraremos o mesmo exemplo, porem fazendo uso dos metodos de encadeamento completo 
e medio, a fim de que possam ser comparados os ordenamentos das observa^oes e os saltos de distancia. 

9.2.2.1.2.2. Metodo de encadeamento completo {furthest neighbor ou complete linkage) 

A matriz D 0 , reproduzida a seguir, e obviamente a mesma, e a menor distancia euclidiana, em destaque, ocor- 
re entre as observa^oes Gabriela e Ovidio, que passam a formar o primeiro agrupamento. Ressalta-se que o 
primeiro agrupamento sera sempre o mesmo, independentemente do metodo de encadeamento adotado, visto 
que o primeiro estagio sempre levara em considera^ao a menor distancia entre dois pares de observa^oes ainda 
isoladas. 


Gabriela Luiz Felipe Patricia Ovidio Leonor 


Gabriela 

Luiz Felipe 
D 0 = Patricia 

Ovidio 

Leonor 


0,000 


10,132 

0,000 

8,420 

7,187 

3,713 

10,290 

4,170 

8,223 


0,000 

6,580 0,000 

6,045 5,474 0,000 


No metodo de encadeamento completo, devemos fazer uso da expressao (9.24), a fim de que possa ser cons- 
truida a matriz D t , confer me segue: 

^(Gabriela-Ovidio)Luiz Felipe = max {10,132; 10,290} = 10,290 
^(Gabriela-Ovidio)Patricia = m ^ X {8,420; 6,580} = 8,420 
^(Gabriela-Ovidio)Leonor = ^aX {4,170; 5,474} = 5,474 

A matriz D, encontra-se a seguir, e, por meio dela, podemos verificar que a observa^ao Leonor sera incorpo- 
rada ao cluster formado por Gabriela e Ovidio. Novamente, o menor valor, entre todos apresentados na matriz 
D l5 encontra-se em destaque. 



Gabriela 

Ovidio 

Luiz Felipe 

Patricia 

Leonor 

Gabriela 

Ovidio 

0,000 





Luiz Felipe 


Patricia 


10,290 0,000 


8,420 7,187 0,000 


Leonor 


5,474 


8,223 


6,045 


0,000 


Assim como o verificado quando da elabora^ao do metodo de encadeamento unico, aqui, as observa^oes 
Luiz Felipe e Patricia tambem permanecem isoladas neste estagio. As diferengas entre os metodos come^am a 
surgir na sequencia.Vamos, portanto, construir a matriz D 2 , fazendo uso dos seguintes criterios: 
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^(Gabriela-Ovidio-Leonor)Luiz Felipe tH«IX } 10,290, B,223| 10,290 

^(Gabriela-Ovidio-Leonor)Patricia tllftX }8,420, 6,045} 8,420 

A matriz D 2 pode ser escrita como: 


f 




\ 


Gabriela 




Ovidio 

Luiz Felipe 

Patricia 


Leonor 



Gabriela 





Ovidio 

0,000 




Leonor 





D 2 = Luiz Felipe 

10,290 

0,000 



Patricia 

8,420 

7,187 

0,000 


V 




> 


No terceiro estagio de aglomera^ao, um novo agrupamento e formado pela fusao das observances Patricia e 
Luiz Felipe, visto que o criterio furthest neighbor adotado pelo metodo de encadeamento completo faz a distan- 
cia entre essas duas observances ser a menor entre todas calculadas para a constru^ao da matriz D 2 . Note, portan- 
to, que, nesse estagio, ocorrem diferen^as em rela^ao ao metodo de encadeamento unico no que diz respeito ao 
ordenamento e a aloca^ao das observances em grupos. 

Para a constru^ao da matriz D 3 , portanto, devemos levar em considera^ao o seguinte criterio: 

^(Gabriela-Ovidio-Leonor) (Luiz Felipe-Patricia) lUclX {10,290^ 8,420} — 10,290 


D, = 


Gabriela 
Ovidio 
Leonor 
Luiz Felipe 
Patricia 


Luiz Felipe 
Patricia 


Gabriela 

Ovidio 

Leonor 

0,000 


i 10,290 0,000 


Da mesma forma, no quarto e ultimo estagio, todas as observances estao alocadas no mesmo cluster , visto que 
ha o agrupamento de Gabriela-Ovidio-Leonor com Luiz Felipe-Patricia. ATabela 9.13 apresenta um resu¬ 
mo desse esquema de aglomera^ao, elaborado por meio do metodo de encadeamento completo. 


Tabela 9.13 Esquema de aglomera^ao pelo metodo de encadeamento completo. 


Estagio 

Agrupamento 

Observa^ao Agrupada 

Menor Distancia 
Euclidiana 

1 

Gabriela 

Ovidio 

3,713 

2 

Gabriela - Ovidio 

Leonor 

5,474 

3 

Luiz Felipe 

Patricia 

7,187 

4 

Gabriela - Ovidio - Leonor 

Luiz Felipe - Patricia 

10,290 


O dendrograma desse esquema de aglomera^ao encontra-se na Figura 9.16. Podemos inicialmente verificar 
que o ordenamento das observances e diferente do observado no dendrograma da Figura 9.12. 







Analise de Agrupamentos 333 


Distancia euclidiana 

01 23456789 10 11 


Gabriela - 

Ovi'dio - - 

Leonor - 

Luiz Felipe- 

Patricia - 

Figura 9.16 Dendrograma - Metodo de encadeamento completo. 


Analogamente ao realizado no metodo anterior, optamos por desenhar duas linhas verticals (I e II) sobre o 
maior salto de distancia, conforme podemos observar na Figura 9.17. 


Distancia euclidiana 

34 5 6 7 8 9 10 11 

i-1-1-1-1-1-1-1-1 


Gabriela 

Ovi'dio 

Leonor 


Luiz Felipe 
Patricia 


l_ 1 _J 

Figura 9.17 Interpretagao do dendrograma - Clusters e salto de distancia. 


Logo, caso o pesquisador opte por considerar tres clusters , a solu^ao ficara igual aquela encontrada anterior- 
mente pelo metodo de encadeamento unico, sendo um composto por Gabriela, Ovidio e Leonor, outro, por 
Luiz Felipe, e um terceiro, por Patricia (linha I da Figura 9.17). Entretanto, caso opte por definir dois agrupa¬ 
mentos (linha II), a solu^ao sera diferente, visto que, nesse caso, o segundo cluster sera formado por Luiz Felipe 
e Patricia, enquanto no caso anterior, era formado apenas por Luiz Felipe, ja que a observa^ao Patricia fora 
alocada no primeiro cluster. 

Analogamente ao realizado no metodo anterior, a Figura 9.18 apresenta, de forma ilustrativa, como podem 
ser estabelecidos os agrupamentos apos a elabora^ao do metodo de encadeamento completo. 



Figura 9.18 Sugestao de agrupamentos formados apos o metodo de encadeamento completo. 


A defini^ao do metodo de aglomera^ao pode ser embasada pela aplica^ao do metodo de encadeamen¬ 
to medio, em que dois grupos sofrem fusao com base na distancia media entre todos os pares de observa^oes 
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pertencentes a esses grupos. Portanto, conforme discutimos, caso o metodo mais adequado seja o de en- 
cadeamento unico pela existencia de observances com consideravel afastamento, o ordenamento 
e a aloca^ao das observances serao mantidos pelo metodo de encadeamento medio. Por outro lado, 
os outputs desse metodo apresentarao consistencia com a solu^ao obtida pelo metodo de encadea¬ 
mento completo no que diz respeito ao ordenamento e a aloca^ao das observances, caso estas se- 
jam bastante similares nas variaveis em estudo. 

Neste sentido, e recomendavel que o pesquisador aplique os tres metodos de encadeamento quando da 
elaboranao de analise de agrupamento por meio de esquemas de aglomeranao hierarquicos.Vamos, portanto, ao 
metodo de encadeamento medio. 

9.2.2.1.2.3. Metodo de encadeamento medio (between groups ou average linkage) 

Inicialmente, reproduzimos a seguir a matriz de distancias euclidianas entre cada par de observances (matriz D 0 ), 
com destaque novamente para a menor distancia entre elas. 



Gabriela 

Luiz Felipe 

Patricia 

Ovfdio 

Leonor 


Gabriela 

0,000 






Luiz Felipe 

10,132 

0,000 





D 0 = Patricia 

8,420 

7,187 

0,000 




Ovfdio 

! 3,713 

| 

i.. -2--- 

10,290 

6,580 

0,000 



Leonor 

4,170 

8,223 

6,045 

5,474 

0,000 



— 




— 



Com base na expressao (9.25), temos condinoes de calcular os termos da matriz D 1} dado que ja e formado o 
primeiro cluster Gabriela-Ovidio. Assim, temos que: 

_ 10,132 + 10,290 


^(Gabriela-Ovidio)Luiz Felipe 


= 10,211 


■^(Gabriela-Ovidio) Patricia 


_ 8,420 + 6,580 


= 7,500 


^(Gabriela-Ovidio)Leonor 


_ 4,170 + 5,474 


= 4,822 


A matriz Di encontra-se a seguir, e, por meio dela, podemos verificar que a observanao Leonor e novamente 
incorporada ao duster formado por Gabriela e Ovidio. O menor valor, entre todos apresentados na matriz 
tambem se encontra em destaque. 


r 


Gabriela 

Ovfdio 


Luiz Felipe 


Patricia Leonor 


Gabriela 

Ovidio 


0,000 


Luiz Felipe 


10,211 


Patricia 


7,500 


4,822 


0,000 

7,187 

8,223 


0,000 


6,045 0,000 


Leonor 
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Para a construgao da matriz D 2 , em que sao calculadas as distancias entre o cluster Gabriela-Ovidio-Leonor 
e as duas observances remanescentes, devemos elaborar os seguintes calculos: 

- _ 10,132 + 10,290 + 8,223 nC/lo 


^(Gabriela-Ovidio-Leonor) Luiz Felipe 


■ = 9,548 


^(Gabriela-Ovidio-Leonor) Patricia 


_ 8,420 + 6,580 + 6,045 


Note que as distancias utilizadas para o calculo das dissimilaridades a serem inseridas na matriz D 2 sao as me- 
didas euclidianas originais entre cada par de observances, ou seja, sao provenientes da matriz D 0 . A matriz D 2 
encontra-se a seguir: 



Assim como verificado quando da elaboranao do metodo de encadeamento unico, aqui, a observanao Patricia 
tambem e incorporada ao cluster ja formado por Gabriela, Ovidio e Leonor, permanecendo isolada a observa¬ 
nao Luiz Felipe. Por fim, a matriz D 3 pode ser construida a partir do seguinte calculo: 


^(Gabriela-Ovidio-Leonor-Patricia)Luiz Felipe 


10,132 + 10,290 + 8,223 + 7,187 


= 8,958 



Novamente, no quarto e ultimo estagio, todas as observances estao no mesmo agrupamento. A Tabela 9.14 e 
a Figura 9.19 apresentam, respectivamente, o resumo desse esquema de aglomeranao e o correspondente dendro- 
grama resultante desse metodo de encadeamento medio. 


Tabela 9.14 Esquema de aglomeragao pelo metodo de encadeamento medio. 


Estagio Agrupamento 


Gabriela 

Gabriela - Ovidio 
Gabriela - Ovidio - Leonor 
Gabriela - Ovidio - Leonor - Patricia 


Observanao 

Agrupada 


Ovidio 
Leonor 
Patricia 
Luiz Felipe 


Menor Distancia 
Euclidiana 
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Distancia euclidiana 

012345678 

i-1-1-1-1-1-1-1-1-1 

Gabriela - 

Ovi'dio - - 

Leonor - 

Patricia - 

Luiz Felipe - 

V___7 

Figura 9.19 Dendrograma - Metodo de encadeamento medio. 

Podemos verificar que aTabela 9.14 e a Figura 9.19, embora com outros valores de distancia, apresentam o 
mesmo ordenamento e a mesma aloca^ao de observances nos agrupamentos que os apresentados, respectivamen- 
te, naTabela 9.12 e na Figura 9.12, obtidos quando da elaboranao do metodo de encadeamento unico. 

Nesse sentido, podemos afirmar que as observances sao consideravelmente distintas em relanao as variaveis 
estudadas, fato comprovado pela consistencia de respostas obtidas pelos metodos de encadeamento unico e me¬ 
dio. Caso as observanoes fossem mais similares, fato nao observado no grafico da Figura 9.11, a consistencia de 
respostas ocorreria entre os metodos de encadeamento completo e medio, conforme ja discutido. Portanto, a 
elaboranao inicial de graficos de dispersao, quando possivel, pode auxiliar o pesquisador, ainda que 
de forma preliminar, na escolha do metodo a ser adotado. 

Os esquemas de aglomeranao hierarquicos sao bastante uteis para oferecer uma possibilidade de que seja analisada, 
de forma exploratoria, a similaridade entre observanoes com base no comportamento de determinadas variaveis. E de 
fundamental importancia, todavia, que o pesquisador compreenda que esses metodos nao sao conclusivos em si 
mesmos e mais de uma resposta pode ser obtida, dependendo do que se deseja e do comportamento dos dados. 

Alem disso, e preciso que o pesquisador tenha consciencia sobre a sensibilidade desses metodos em relanao a 
presenna de outliers. A existencia de uma observa^ao muito discrepante pode fazer outras observanoes, 
nao tao similares entre si, serem alocadas em um mesmo agrupamento pelo fato de se diferencia- 
rem mais substancialmente da considerada outlier . Portanto, e recomendavel que sucessivas aplicanoes de 
esquemas hierarquicos aglomerativos com o metodo de encadeamento escolhido sejam elaboradas, e, em cada 
aplicanao, seja identificada uma ou mais observanoes consideradas outliers. Esse procedimento tornara a analise de 
agrupamentos mais confiavel, visto que poderao ser formados clusters cada vez mais homogeneos. O pesquisador 
tern a liberdade de caracterizar a observanao mais discrepante como aquela que acabou por ficar isolada apos o 
penultimo estagio de aglomeranao, caso acontena, ou seja, antes da fusao total. Porem, muitos sao os metodos para 
que se defina um outlier. Barnett e Lewis (1994), por exemplo, citam quase 1.000 artigos provenientes da litera- 
tura sobre outliers , e, para efeitos didaticos, discutiremos, no apendice deste capitulo, um efetivo procedimento em 
Stata para a detecnao de outliers quando de uma analise multivariada de dados. 

E relevante tambem enfatizar, conforme discutimos na presente senao, que diferentes metodos de encadea¬ 
mento, quando da elaboranao de esquemas hierarquicos aglomerativos, devem ser aplicados ao mesmo banco de 
dados, e os dendrogramas resultantes, comparados. Esse procedimento auxiliara o pesquisador em sua to- 
mada de decisao, tanto em relanao a escolha de uma interessante quantidade de agrupamentos quanto em relanao 
ao ordenamento das observanoes e a alocanao de cada uma nos diferentes clusters formados. Isso propiciara inclu¬ 
sive que se tome uma decisao coerente em relanao a quantidade de agrupamentos que podera ser considerada 
input de uma eventual analise nao hierarquica. 

Por fim, mas nao menos importante, vale a pena comentar que os esquemas de aglomeranao apresentados nes- 
ta senao (Tabelas 9.12, 9.13 e 9.14) oferecem valores crescentes das medidas de agrupamento pelo fato 
de ter sido adotada uma medida de dissimilaridade (distancia euclidiana) como criterio de comparanao 
entre as observanoes. Caso tivessemos escolhido a correlanao de Pearson entre as observanoes, medida de simila¬ 
ridade tambem utilizada para variaveis metricas, conforme discutimos na senao 9.2.1.1, os valores das medidas 
de agrupamento nos esquemas de aglomeranao seriam decrescentes. Este ultimo fato tambem ocorre 
para analises de agrupamento em que sao utilizadas medidas de semelhanna (similaridade), como as estudadas na 
senao 9.2.1.2, para avaliar o comportamento de observanoes com base em variaveis binarias. 

Na proxima senao elaboraremos, de forma algebrica, o mesmo exemplo por meio da aplicanao do esquema 
de aglomeranao nao hierarquico k-means. 
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9.2.2.2. Esquema de aglomeraqao nao hierarquico k-means 

Dentre os esquemas de aglomeraqao nao hierarquicos, o procedimento k-means e o mais utilizado por pes- 
quisadores em diversos campos do conhecimento. Dado que a quantidade de clusters e definida preliminarmente 
pelo pesquisador, esse procedimento pode ser elaborado apos a aplicaqao de um esquema hierarquico aglomera- 
tivo quando nao se tern ideia da quantidade de clusters que podem ser formados e, nessa situaqao, o output obtido 
por esse procedimento pode servir de input para o nao hierarquico. 


9.2.2.2.I. Notaqao 

Assim como a elaborada na seqao 9.2.2.1.1, apresentamos, a seguir, uma sequencia logica de passos, com base 
em Johnson e Wichern (2007), para que seja facilitado o entendimento da analise de agrupamentos, elaborada 
por meio do procedimento k-means: 

1. Definimos a quantidade inicial de clusters e os respectivos centroides. O objetivo e dividir as observaqoes 
do banco de dados em K clusters , de modo que aquelas dentro de cada cluster estejam mais proximas entre 
si se comparadas a qualquer outra pertencente a um diferente. Para tal, as observances precisam arbitraria- 
mente ser alocadas nos K clusters, a fim de que possam ser calculados os respectivos centroides. 

2. Devemos selecionar determinada observaqao que se encontra mais proxima de um centroide e realoca-la 
nesse cluster. Neste momento, outro cluster acaba de perder aquela observaqao, e, portanto, devem ser recal- 
culados os centroides do cluster que a recebe e os do cluster que a perde. 

3. Devemos proceder com o passo anterior ate que nao seja mais possivel realocar observaqao alguma por 
maior proximidade a um centroide de outro cluster. 

exclusao de determinada obser- 

(9.26) 


A coordenada x de um centroide deve ser recalculada quando da inclusao ou 
vaqao p no respectivo cluster, com base nas seguintes expressoes: 

N • 3c + a: 


a: _ = ■ 


N + l 


-, caso a observaqao p seja inserida no cluster em analise 


N • x + x 
N- 1 


., caso a observagao p seja excluida do cluster em analise 


(9.27) 


em que N e x referem-se, respectivamente, a quantidade de observagoes no cluster e a coordenada de seu cen¬ 
troide antes da realocagao daquela observa£ao. Alem disso, x p refere-se a coordenada da observagao p que sofreu 
mudanga de cluster. 

A Figura 9.20 apresenta, para duas variaveis (X x e X 2 ), uma situagao hipotetica que representa o termino do 
procedimento k-means, em que nao e mais possivel realocar observagao alguma pelo fato de nao mais haver maio- 
res proximidades a centroides de outros agrupamentos. 

A matriz de distancias entre as observagoes nao precisa ser definida a cada passo, ao contrario dos esquemas de 
aglomeraqao hierarquicos, o que reduz a exigencia em relaqao a capacidade computacional, permitindo que os 
esquemas de aglomeraqao nao hierarquicos possam ser aplicados a bancos de dados consideravelmente maiores 
que aqueles tradicionalmente estudados por meio de esquemas hierarquicos. 



Figura 9.20 Situagao hipotetica que representa o termino do procedimento k-means. 
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Alem disso, lembramos que as variaveis devem ser padronizadas antes da elabora^ao do procedimento k-means , 
assim como nos esquemas de aglomera^ao hierarquicos, caso os respectivos valores nao estejam na mesma uni- 
dade de medida. 

Finalmente, apos a conclusao desse procedimento, e importante que o pesquisador estude se os valores de 
determinada variavel metrica diferem-se entre os grupos definidos, ou seja, se a variabilidade entre os clusters e 
significativamente superior a variabilidade interna a cada cluster. O teste F da analise de variancia de um fator 
(em ingles, one-way analysis of variance ou one-way AN OVA) permite que seja elaborada essa analise, sendo que 
suas hipoteses nula e alternativa podem ser definidas da seguinte maneira: 

H 0 : a variavel em analise apresenta a mesma media em todos os grupos formados. 

a variavel em analise apresenta media diferente em pelo menos um dos grupos em rela^ao aos demais. 


Dessa forma, um unico teste F pode ser aplicado para cada variavel, com o intuito de se avaliar a existencia 
de pelo menos uma diferenga entre todas as possibilidades de comparagoes, e, nesse sentido, a principal vantagem 
de sua aplicagao reside no fato de que nao precisam ser elaborados ajustes em relagao a dimensoes discrepantes 
dos grupos para se analisarem diversas comparagoes. For outro lado, a rejeigao da hipotese nula, a determinado 
nivel de significancia, nao permite que o pesquisador saiba qual(is) grupo(s) e(sao) estatisticamente diferente(s) 
dos demais em relagao a variavel em analise. 

A expressao da estatistica F, correspondente a esse teste, e dada pela seguinte expressao: 


variabilidade entre os grupos 
variabilidade dentro dos grupos 


K 

^N k -(X k -X) 2 

k=l _ 

K -1 

_ki _ 

n-K 


(9.28) 


em que N representa a quantidade de observa^oes no fe-esimo cluster , X fe ea media da variavel X no mesmo k- 
-esimo cluster , Xea media geral da variavel X e X ki e o valor que a variavel X assume para determinada observa- 
$ao i presente no fe-esimo cluster. Alem disso, K representa a quantidade de grupos (clusters) a serem comparados, 
e n, o tamanho da amostra. 

Fazendo uso da estatistica F, o pesquisador tera condi^oes de identificar as variaveis cujas medias mais se di- 
ferem entre os grupos, ou seja, aquelas que mais contribuem para a forma^ao de pelo menos um dos K clusters 
(maior estatistica F), bem como aquelas que nao contribuem para a forma^ao da quantidade sugerida de agru- 
pamentos, a determinado nivel de significancia. 

Na proxima se^ao, apresentaremos um exemplo pratico que sera resolvido por meio de solu^ao algebrica, a 
partir do qual os conceitos referentes ao procedimento k-means poderao ser fixados. 

9.2.2.2.2. Exemplo pratico de analise de agrupamentos com esquema de aglomera^ao nao hierarquico 
k-means 

Para resolu^ao algebrica do esquema de aglomera^ao nao hierarquico k-means , faremos uso dos dados de nos- 
so proprio exemplo, que se encontram naTabela 9.11 e sao reproduzidos naTabela 9.15. 


Tabela 9.15 Exemplo: Notas de Matematica, Fisica e Quimica no vestibular. 


Estudante 

Nota de Matematica 

Nota de Fisica 

Nota de Quimica 

(Observa9ao) 

(X u ) 

(X 2i ) 

(Xu) 

Gabriela 

3,7 

2,7 

9,1 

Luiz Felipe 

7,8 

8,0 

1,5 

Patricia 

8,9 

1,0 

2,7 

Ovidio 

7,0 

1,0 

9,0 

Leonor 

3,4 

2,0 

5,0 
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Softwares como o SPSS utilizam a distancia euclidiana como padrao de medida de dissimilaridade, razao pela 
qual elaboraremos os procedimentos algebricos com base nessa medida. Esse criterio inclusive permitira que os 
resultados obtidos sejam comparados com os encontrados quando da elaboragao dos esquemas de aglomeragao 
hierarquicos na segao 9.2.2.1.2, visto que, naquelas situagoes, tambem foi utilizada a distancia euclidiana. Da mes- 
ma forma, nao sera tambem necessaria a padronizagao das variaveis pelo procedimento Zscores, ja que apresentam 
valores na mesma unidade de medida (notas de 0 a 10). Caso contrario, e de fundamental importancia que 
o pesquisador padronize as variaveis antes da elaboragao do procedimento k-means. 

Fazendo uso da sequencia logica apresentada na segao 9.2.2.2.1, vamos elaborar o procedimento k-means com K 
= 3 clusters. Essa quantidade de agrupamentos pode ser oriunda de uma decisao do pesquisador pautada por deter- 
minado criterio preliminar ou escolhida com base nos outputs dos esquemas de aglomeragao hierarquicos. No nosso 
caso, a decisao foi tomada com base na comparagao dos dendrogramas ja elaborados e pela semelhanga dos outputs 
obtidos pelos metodos de encadeamento unico e medio. 

Assim, precisamos alocar arbitrariamente as observagoes em tres clusters , a fim de que possam ser calculados 
os respectivos centroides. Portanto, podemos definir que as observagoes Gabriela e Luiz Felipe formam o pri- 
meiro cluster, Patricia e Ovidio, o segundo, e Leonor, o terceiro. A Tabela 9.16 apresenta a formagao arbitraria 
desses clusters preliminares, bem como o calculo das coordenadas dos respectivos centroides, o que possibilita o 
passo inicial do algoritmo do procedimento k-means. 


Tabela 9.16 Alocagao arbitraria das observagoes em/(=3 clusters e calculo 
das coordenadas dos centroides - Passo inicial do procedimento k-means. 



Coordenadas dos Centroides 

Agrupamento 

Variavel 

Nota de Matematica 

Nota de Fisica 

Nota de Quimica 

Gabriela 

Luiz Felipe 

3,7 + 7,8 = 5,75 

2 

2,7 + 8 ,0 _ 5 

2 

9,1 + 1,5 

—-— = 5,30 

2 

Patricia 

Ovidio 

8,9+ 7,0 

--— = 7,95 

2 

1 ’ 0+1 ’° = l ) 00 

2 

2,7 + 9 >° _ 5 gs 

2 

Leonor 

3,40 

2,00 

5,00 


Com base nessas coordenadas, construimos o grafico da Figura 9.21, que apresenta a alocagao arbitraria de cada 
observagao em seu cluster, bem como os respectivos centroides. 



Figura 9.21 Alocagao arbitraria das observagoes em K= 3 clusters e respectivos centroides 
- Passo inicial do procedimento k-means. 

Com base no segundo passo da sequencia logica apresentada na segao 9.2.2.2.1, devemos escolher determi- 
nada observagao e calcular a distancia entre ela e os centroides de todos os agrupamentos, supondo que seja ou 
nao realocada em cada cluster. Selecionando, por exemplo, a primeira observagao (Gabriela), vamos calcular as 
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distancias entre ela e os centroides dos agrupamentos ja formados (Gabriela-Luiz Felipe, Patricia-Ovidio e 
Leonor) e, na sequencia, supor que ela deixe seu cluster (Gabriela-Luiz Felipe) e seja inserida em um dos ou- 
tros dois agrupamentos, formando o cluster Gabriela-Patricia-Ovfdio ou o Gabriela-Leonor. Assim, a partir 
das expressoes (9.26) e (9.27), devemos recalcular as coordenadas dos novos centroides, simulando que, de fato, 
ocorra a realoca^ao de Gabriela para um dos dois clusters, conforme mostra aTabela 9.17. 


Tabela 9.17 Simulagao de realocagao de Gabriela e calculo das coordenadas dos novos centroides. 




Coordenadas dos Centroides 

Agrupamento 

Simula^ao 

Variavel 

Nota de 
Matematica 

Nota de Fisica 

Nota de Qufmica 

Luiz Felipe 

Exclusao 

de 

Gabriela 

2 *(5,75)-3,70 _ 

2-1 

2-(5,35)-2,70 _ 

v } - 1 — = 8,00 

2-1 

2 (5,30) - 9,10 _ 0 

2-1 

Gabriela 

Patricia 

Ovidio 

Inclusao 

de 

Gabriela 

2-(7,95)+ 3,70 

= b,DJ 

2 + 1 

2-(l,00)+2,70_ 1 „ 

2 + 1 ” J " > ' 

2*(5,85) + 9,10 
v ' — -— = 6,93 

2 + 1 

Gabriela 

Leonor 

Inclusao 

de 

Gabriela 

1 • (3,40) +3,70 _ 3 

1+1 

l - (2,00) + 2,70 „„ r 
! + ! 

1-(5,00) +9,10 _^ QC 
1+1 


Obs.: Note que os valores calculados das coordenadas do centroide de Luiz Felipe sao exatamente iguais as coorde¬ 
nadas originais dessa observa^ao, conforme mostra aTabela 9.15. 


Nesse sentido, a partir dasTabelas 9.15, 9.16 e 9.17,podemos calcular as seguintes distancias euclidianas: 


• Suposi^ao de que Gabriela nao seja realocada: 


^Gabriela-(Gabriela-Luiz Felipe) 


= 7(3, 70-5,75) 2 +(2,70-5,35) 2 +(9,10-5,30) 2 =5,066 


j - J(3,70 - 7,95) 2 + (2,70 -1,00) 2 + (9,10- 5,85) 2 =5,614 

«Gabriela-(Patricia-Ovidio) “ VV ' V V ' 

j = 7(3,70-3,40) 2 +(2,70-2,00) 2 +(9,10-5,00) 2 =4,170 

^Gabriela-Leonor v 


• Suposifao de que Gabriela seja realocada: 

= 7(3,70-7,80) 2 +(2,70-8,00) 2 +(9,10-1,50) 2 =10,132 


^Gabriela-Luiz Felipe 


w Gabriela-(Gabriela-Patricia-Ovidio) 


= 7(3,70 - 6,53) 2 + (2,70 -1,57) 2 + (9,10 - 6,93) 2 =3,743 


^Gabriela-(Gabriela-Leonor) 


= 7(3,70-3,55) 2 +(2,70-2,35) 2 4- (9,10-7,05) 2 =2,085 


Como Gabriela encontra-se mais proxima do centroide de Gabriela-Leonor (menor distancia euclidiana), 
devemos realocar essa observa^ao no cluster formado inicialmente apenas pela observa^ao Leonor. Logo, o cluster em 
que a observa^ao Gabriela estava inicialmente (Gabriela-Luiz Felipe) acaba de perde-la, passando a observa^ao 
Luiz Felipe a compor um cluster individual; portanto, devem ser recalculados os centroides do cluster que a recebe 
e do que a perde. A Tabela 9.18 apresenta a forma^ao dos novos clusters, assim como o calculo das coordenadas dos 
respectivos centroides. 
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Tabela 9.18 Novos centroides com realoca^ao de Gabriela. 



Coordenadas dos Centroides 

Agrupamento 

Variavel 

Nota de Matematica 

Nota de Fisica 

Nota de Quimica 

Luiz Felipe 

7,80 

8,00 

1,50 

Patricia 

Ovidio 

7,95 

1,00 

5,85 

Gabriela 

Leonor 

3,7 + 3,4 _ 5 

2 

2 ,7 + 2,0 _ 

—-— = 2,35 

2 

9,1+ 5,0 

--—=7,05 

2 


Com base nessas novas coordenadas, podemos construir o grafico que se encontra na Figura 9.22. 



Figura 9.22 Novos clusters e respectivos centroides - Realoca^ao de Gabriela. 

Vamos proceder novamente com o passo anterior. Como a observa^ao Luiz Felipe esta, neste momento, iso- 
lada, vamos simular a realoca^ao da terceira observa^ao (Patricia). Devemos calcular as distancias entre ela e os 
centroides dos agrupamentos ja formados (Luiz Felipe, Patricia-Ovidio e Gabriela-Leonor) e, na sequencia, 
supor que ela deixe seu cluster (Patricia-Ovidio) e seja inserida em um dos outros dois agrupamentos, forman- 
do o cluster'Luiz Felipe-Patricia ou o Gabriela-Patricia-Leonor. Tambem com base nas expressoes (9.26) 
e (9.27), devemos recalcular as coordenadas dos novos centroides, simulando que de fato ocorra a realoca^ao de 
Patricia para um desses dois clusters , conforme mostra a Tabela 9.19. 

Tabela 9.19 Simula^ao de realoca<^ao de Patricia - Passo seguinte do algoritmo do procedimento k-means. 



Coordenadas dos Centroides 

Agrupamento 

Simulafao 

Variavel 

Nota de Matematica 

Nota de Fisica 

Nota de Quimica 

Luiz Felipe 
Patricia 

Inclusao 

de 

Patricia 

1-(7,80) +8,90 _ 03r 

1 + 1 

1 ‘( 8 , 00 )+ 1,00 ^ rQ 

1 + 1 

l-(l,50) + 2,70 

v --—= 2,10 

1+1 

Ovidio 

Exclusao 

de 

Patricia 

2-(7,95)-8,90 _ 

-Li—1 i—= 7,00 

2-1 

2 -( 1 , 00 )- 1,00 
v ; —— = 1,00 

2-1 

2 <5,85)-2,70 

2-1 

Gabriela 

Patricia 

Leonor 

Inclusao 

de 

Patricia 

2- (3,55)+8,90 _ 5 

2+1 

2-(2,35) + l,00 _ 190 
2+1 

2.(7,05)+2,70 = 

2+1 


Obs.: Note que os valores calculados das coordenadas do centroide de Ovidio sao exatamente iguais as originais 
dessa observa^ao, conforme mostra a Tabela 9.15. 
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Analogamente ao realizado quando da simula^ao de realoca^ao de Gabriela, vamos calcular, com base nas 
Tabelas 9.15, 9.18 e 9.19, as distancias euclidianas entre Patricia e cada um dos centroides: 

• Suposi^ao de que Patricia nao seja realocada: 


^Patrfcia-Luiz Felipe 


= V(8,90-7,80) 2 +(1,00-8,00) 2 +(2,70-1,50) 2 =7,187 


^Patricia-(Patricia-Ovidio) 


^Patricia-(Gabriela-Leonor) 


= 7(8,90-7,95) 2 + (1,00-1,00) 2 +(2,70-5,85) 2 =3, 


290 


= 7(8,90-3,55) 2 +(1,00-2,35) 2 +(2,70-7,05) 2 =7,026 


• Suposi^ao de que Patricia seja realocada: 


j , = 7 ( 8 , 90 - 8 , 35) 2 +(l,00-4,50) 2 +(2,70-2,10) 2 =3,593 

^Patricia-(Luiz Felipe-Patricia) ' 


■^Patricia-Ovidio 


= 7 ( 8 , 90-7,00) 2 +(1,00-1,00) 2 +(2,70-9,00) 2 =6,580 


j - 7(8,90- 5,33) 2 + (1,00 -1,90) 2 + (2,70 - 5,60) 2 = 4,684 

a Patricia-(Gabriela-Patricia-Leonor) “ V V 1 V 7 V 7 


Tendo em vista que a distancia euclidiana entre Patricia e o cluster Patricia-Ovidio e a menor, nao iremos 
realoca-la para outro agrupamento e manteremos, nesse momento, a solu^ao apresentada na Tabela 9.18 e na 
Figura 9.22. 

Na sequencia, vamos elaborar o mesmo procedimento, porem simulando a realoca^ao da quarta observa^ao 
(Ovidio). Analogamente, devemos, portanto, calcular as distancias entre essa observa^ao e os centroides dos agru- 
pamentos ja formados (Luiz Felipe, Patricia-Ovidio e Gabriela-Leonor) e, em seguida, fazer a suposi^ao 
de que ela deixe seu cluster (Patricia-Ovidio) e seja inserida em um dos outros dois agrupamentos, formando 
o cluster \juvl Felipe-Ovidio ou o Gabriela-Ovidio-Leonor. Novamente por meio das expressoes (9.26) e 
(9.27), podemos recalcular as coordenadas dos novos centroides, simulando que de fato ocorra a realoca^ao de 
Ovidio para um desses dois clusters , conforme mostra a Tabela 9.20. 


Tabela 9.20 Simula^ao de realocagao de Ovidio - Novo passo do algoritmo 
do procedimento k-means. 



Coordenadas dos Centroides 

Agrupamento 

Simula^ao 

Variavel 

Nota de Matematica 

Nota de Fisica 

Nota de Quimica 

Luiz Felipe 
Ovidio 

Inclusao 

de 

Ovidio 

l-(7,80) + 7,00_ 10 
1+1 

1 ‘(8,00)+ 1,00 i 

1+1 

1 -(1,50) + 9,00 _ 5 „ 5 

1 + 1 

Patricia 

Exclusao 

de 

Ovidio 

2-(7,95) -7,00 _ 

2-1 

2 -(l,00)-l,00_ 10() 

2-1 

2-(5,85)-9,00 

2-1 

Gabriela 

Ovidio 

Leonor 

Inclusao 

de 

Ovidio 

2-(3,55)+7,00 _^ 0 
2+1 

2-(2,35) +1,00 _ 1 

2+1 

2- (7,05) + 9,00 _„ 0 
2+1 


Obs.: Note que os valores calculados das coordenadas do centroide de Patricia sao exatamente iguais as originais 
dessa observa^ao, conforme mostra a Tabela 9.15. 


A seguir, encontram-se os calculos das distancias euclidianas entre Ovidio e cada um dos centroides, elabo- 
rados a partir das Tabelas 9.15,9.18 e 9.20: 
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• Suposi^ao de que Ovidio nao seja realocado: 


^Ovidio-Luiz Felipe 


i7 ^ 


^Ovidio-(Patricia-Ovidio) 


^Ovidio-(Gabriela-Leonor) 


7,00 - 7,80) 2 + (1,00 - 8,00) 2 + (9,00 -1,50) 2 = 10,290 
7(7,00 - 7,95) 2 + (1,00 -1,00) 2 + (9,00 - 5,85) 2 = 3,290 
= 7(7,00-3,55) 2 +(l,00-2,35) 2 +(9,00-7,05) 2 =4,187 


• Suposi^ao de que Ovidio seja realocado: 


^Ovidio-(Luiz Felipe-Ovidio) 


= J(7,00-7,40) 2 + (l,00-4,50) 2 +(9,00-5,25) 2 = 

idio) v 

a , = 7(7,00-8,90) 2 +(1,00-1,00) 2 +(9,00-2,70) 2 =6,580 

w Ovidio-Patricia * 


^Ovidio-(Gabriela-Ovidio-Leonor) 


= 7(7,00- 4,70) 2 +(1,00 —1,90) 2 +(9,00-7,70) 2 


5,145 


= 2,791 


Nesse caso, como a observa^ao Ovidio encontra-se mais proxima do centroide de Gabriela-Ovidio- 
Leonor (menor distancia euclidiana), devemos realocar essa observa^ao no cluster formado inicialmente por 
Gabriela e Leonor. Portanto, a observa^ao Patricia passa a formar urn cluster individual. A Tabela 9.21 apre- 
senta as coordenadas dos centroides dos clusters Luiz Felipe, Patricia e Gabriela-Ovidio-Leonor. 


Tabela 9.21 Novos centroides com realoca^ao de Ovidio. 



Coordenadas dos Centroides 

Agrupamento 

Variavel 

Nota de Matematica 

Nota de Ffsica 

Nota de Qufmica 

Luiz Felipe 

7,80 

8,00 

1,50 

Patricia 

8,90 

1,00 

2,70 

Gabriela 

Ovidio 

Leonor 

4,70 

1,90 

7,70 


Nao iremos elaborar o procedimento proposto para a quinta observa^ao (Leonor), visto que ela ja sofreu fu- 
sao com a observa^ao Gabriela logo no primeiro passo do algoritmo. Podemos considerar que o procedimento 
k-means esteja encerrado, uma vez que nao e mais possivel realocar qualquer observa^ao por maior proximidade a 
um centroide de outro cluster. A Figura 9.23 apresenta a aloca^ao de cada observa^ao em seu cluster, bem como os 
respectivos centroides. Note que a solu^ao obtida e igual a encontrada por meio dos metodos de encadeamento 
unico (Figura 9.15) e medio, quando da elabora^ao dos esquemas de aglomera^ao hierarquicos. 



Figura 9.23 Solu^ao do procedimento k-means. 
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Conforme ja discutimos, podemos verificar que a matriz de distancias entre as observances nao precisa ser 
definida a cada passo do algoritmo referente ao procedimento k-means , ao contrario dos esquemas de aglome- 
ra^ao hierarquicos, o que reduz a exigencia em relanao a capacidade computacional, permitindo que os esque¬ 
mas de aglomeranao nao hierarquicos possam ser aplicados a bancos de dados consideravelmente maiores que 
os tradicionalmente estudados por meio de esquemas hierarquicos. 

ATabela 9.22 apresenta as distancias euclidianas entre cada observanao do banco de dados original e os cen- 
troides de cada um dos clusters formados. 


Tabela 9.22 Distancias euclidianas entre observances e centroides dos dusters . 



Agrupamento 

Estudante 

(Observa£ao) 

Luiz Felipe 

Patricia 

Gabriela 

Ovidio 

Leonor 

Gabriela 

10,132 

8,420 

1,897 

Luiz Felipe 

0,000 

7,187 

9,234 

Patricia 

7,187 

0,000 

6,592 

Ovldio 

10,290 

6,580 

2,791 

Leonor 

8,223 

6,045 

2,998 


Ressaltamos que esse algoritmo pode ser elaborado com outra alocanao preliminar das observances nos clusters 
alem da escolhida nesse exemplo. A reaplica^ao do procedimento k-means com diversas escolhas arbi- 
trarias, dada a quantidade K de clusters , permite que o pesquisador avalie a estabilidade do procedi¬ 
mento de agrupamento e embase, de maneira consistente, a alocanao das observances nos grupos. 

Apos a conclusao desse procedimento, e de fundamental importancia que verifiquemos, por meio do teste F da 
analise de variancia de um fator ( one-way analysis of variance ou one-way AN OVA), se os valores de cada uma das tres 
variaveis consideradas na analise sao estatisticamente diferentes entre os tres clusters. Para facilitar o calculo das esta- 
tisticas F correspondentes a esse teste, elaboramos asTabelas 9.23, 9.24 e 9.25, que apresentam as medias por cluster 
e geral das variaveis matematica,fsica e quimica , respectivamente. 


Tabela 9.23 Medias por duster e geral da variavel matematica. 


Cluster 1 

Cluster 2 

Cluster 3 



^Gabriela “3,70 

^Luiz Felipe = 7,80 

X Patricia = 8,90 

^Ovidio “ 7,00 



^Leonor “3,40 

Xj = 7,80 

X 2 = 8,90 

X 3 = 4,70 

X = 6,16 


Tabela 9.24 Medias por duster e geral da variavel ffsica. 


Cluster 1 

Cluster 2 

Cluster 3 



^Gabriela “2,70 

^Luiz Felipe “ 8,00 

x patricia = 1,00 

^Ovidio “ 1,00 


X Lconor = 2,00 

X, = 8,00 

x 2 = 1,00 

X 3 = 1,90 

X = 2,94 
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Tabela 9.25 Medias por cluster e geral da variavel quimica. 


Cluster 1 

Cluster 2 

Cluster 3 



^Gabriela “9,10 

^Luiz Felipe “1,50 

-^Patricia = 2,70 

^Ovidio = 9,00 



^Leonor “ 5,00 

X t = 1,50 

X 2 = 2,70 

X 3 = 7,70 

X = 5,46 


Logo, com base nos valores apresentados nessas tabelas e fazendo uso da expressao (9.28), temos condi^oes 
de calcular as variabilidades entre os grupos e dentro deles para cada uma das variaveis, bem como as respectivas 
estatisticas F. As Tabelas 9.26, 9.27 e 9.28 apresentam esses calculos. 


Tabela 9.26 Variabilidades e estatistica F para a variavel matematica. 


Variabilidade 
entre os grupos 

(7,80-6,16) 2 +(8,90-6,16) 2 +3-(4,70-6,16) 2 

3-1 

Variabilidade dentro 
dos grupos 

(3,70-4,70) 2 +(7,00—4,70) 2 + (3,40-4,70) 2 _ 3 99Q 

5-3 

F 

8 ’ 2% =2,079 

3,990 


Obs.: O calculo da variabilidade dentro dos grupos levou em considera^ao apenas o cluster 3, visto que os de- 
mais apresentam variabilidade igual a 0 por serem formados por uma unica observa^ao. 


Tabela 9.27 Variabilidades e estatistica F para a variavel fisica. 


Variabilidade entre 

os grupos 

(8,00-2,94) 2 +(1,00-2,94) 2 +3-(l,90-2,94) 2 ^ 

= 16,306 

3-1 

Variabilidade dentro 
dos grupos 

(2,70-l,90) 2 +(1,00-1,90) 2 + (2,00-1,90) 2 

5-3 

F 

16,306 

— 2 -=22,337 

0,730 


Obs.: Igual a da tabela anterior. 


Tabela 9.28 Variabilidades e estatistica F para a variavel quimica. 


Variabilidade 
entre os grupos 

(1,50-5,46) 2 +(2,70-5,46) 2 +3-(7,70-5,46) 2 ^ ^ 

3-1 ~ ’ 

Variabilidade dentro 
dos grupos 

(9,10 —7,70) 2 +(9,00-7,70) 2 + (5,00 —7,70) 2 _ r 

5-3 

F 

19,176 „ 

= 3,506 

5,470 


Obs.: Igual a da Tabela 9.26. 


Vamos agora analisar a rejei^ao ou nao da hipotese nula dos testes Fpara cada uma das variaveis. Como exis- 
tem dois graus de liberdade para a variabilidade entre os grupos (K— 1 = 2) e dois graus de liberdade para a va¬ 
riabilidade dentro dos grupos (n - K = 2), temos, por meio da Tabela A do apendice do livro, que F c = 19,00 (F 
critico ao nivel de significance de 5%). Dessa forma, apenas para a variavel fisica podemos rejeitar a hipotese nula 
de que todos os grupos formados possuem a mesma media, uma vez que F calculado F cal = 22,337 > F c = F 22 5 % 
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— 19,00, Logo, para essa variavel, existe pelo menos um grupo que apresenta media estatisticamente diferente dos 
demais. Para as variaveis matematica e quimica , no entanto, nao podemos rejeitar a hipotese nula do teste ao nivel 
de significancia de 5%. 

Softwares como o SPSS e o Stata nao oferecem o F c para os graus de liberdade definidos e determinado ni- 
vel de significancia. Todavia, oferecem o nivel de significancia do F a , para esses graus de liberdade. Assim, em vez 
de analisarmos se F cd > F c , devemos verificar se o nivel de significancia do F cd e menor que 0,05 (5%). Portanto: 

Se Sig. F (ou Prob. F) < 0,05, existe pelo menos uma diferenga entre os grupos para a variavel em analise. 

O nivel de significancia do Fed pode ser obtido no Excel por meio do comando Formulas —> Inserir 
Fungao —> DISTF, que abrira uma caixa de dialogo como a apresentada na Figura 9.24. 


Argumentos da funcac 




DISTF 


X 

1 22,337 

IHl = 22,337 

Gra us_8bewfacfel 

F. 

111 = 2 

Gra us_fiberdade2 

I 2 

|iij = 2 


* 0,042850409 

Essa fungao esta disporavel para oompatibtdade com o Excel 2007 e anterior. 

Retorna a distribuigao (jgrau de diversidade) de probabilidade F (cauda direita) para dois csonjuntos de dados. 

Graitsjiberdade2 e ograu de liberdade do denominador, um numero entre 1 e 10^10, 
exduindo 10 A 10. 


Resultado da formula - 0,042850409 
Aiuda sobre esta funcao 


OK 


Caricelar 


Figura 9.24 Obtengao do nivel de significancia de F (comando Inserir Funcao). 


Conforme podemos observar por meio dessa figura, o sig. F para a variavel jisica e menor que 0,05 (sig. F = 
0,043), ou seja, existe pelo menos uma diferenga entre os grupos para essa variavel ao nivel de significancia de 
5%. Um pesquisador interessado podera realizar o mesmo procedimento para as variaveis matematica e quimica. A 
Tabela 9.29 apresenta, de forma resumida, os resultados da analise de variancia de um fator, com as variabilidades 
de cada variavel, as estatisticas F e os respectivos niveis de significancia. 


Tabela 9.29 Analise de variancia de um fator (ANOVA). 


Variavel 

Variabilidade entre 
os grupos 

Variabilidade dentro 
dos grupos 

F 

Sig- F 

matematica 

8,296 

3,990 

2,079 

0,325 

Jisica 

16,306 

0,730 

22,337 

0,043 

quimica 

.19,176 

5,470 

3,506 

0,222 


A tabela de analise de variancia de um fator ainda permite que o pesquisador identifique as varia¬ 
veis que mais contribuem para a forma^ao de pelo menos um dos clusters , por possuirem media esta¬ 
tisticamente diferente em pelo menos um dos grupos em relagao aos demais, visto que elas apresentarao maiores 
valores da estatistica F. E relevante comentar que os valores da estatistica F sao bastante sensiveis ao ta- 
manho da amostra, e, nesse caso, as variaveis matematica e quimica acabaram por nao apresentar medias estatisti¬ 
camente diferentes entre os tres grupos, muito em fungao de a amostra ser reduzida (apenas cinco observagoes). 

Ressaltamos que essa analise de variancia de um fator tambem pode ser realizada logo apos a 
aplicagao de determinado esquema de aglomeragao hierarquico, visto que depende apenas da classifi- 
cagao das observagoes em grupos. O unico cuidado que o pesquisador deve ter, ao comparar os resultados ob- 
tidos por um esquema hierarquico com os obtidos por um esquema nao hierarquico, e em relagao a adogao da 
mesma medida de distancia em ambas as situagoes. Alocagoes diferentes das observagoes em uma mesma 
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quantidade de clusters podem ocorrer caso sejam utilizadas medidas distintas de distancia em um 
esquema hierarquico e em um esquema nao hierarquico; portanto, podem ser calculados valores 
diferentes das estatfsticas F nas duas situa£ 6 es. 

De maneira geral, caso haja uma ou mais variaveis que nao contribuam para a forma^ao da quantidade sugerida 
de agrupamentos, recomendamos que o procedimento seja reaplicado sem sua presen9a. Nessas situates, 
podera ocorrer a altera^ao da quantidade de agrupamentos e, caso o pesquisador veja a necessidade de embasar o 
input inicial a respeito da quantidade K de clusters , podera inclusive fazer uso de um esquema hierarquico 
aglomerativo sem a presen^a daquelas variaveis antes da reaplica9ao do procedimento k-means , o que 
tornara a analise ciclica. 

Alem disso, a existencia de outliers pode gerar clusters com consideravel dispersao, e o tratamento da base de 
dados com foco na identifica9ao de observa9oes muito discrepantes passa a ser um procedimento 
recomendavel antes da elabora^ao de esquemas de aglomera^ao nao hierarquicos. No apendice deste capitulo, 
sera apresentado um importante procedimento em Stata para a detec^ao de outliers multivariados. 

Assim como os esquemas de aglomera^ao hierarquicos, o procedimento nao hierarquico k-means nao 
pode ser utilizado como tecnica isolada com a finalidade de que seja tomada uma decisao conclusiva a res¬ 
peito do agrupamento de observances. O comportamento dos dados, o tamanho da amostra e os cri- 
terios adotados pelo pesquisador podem ser bastante sensiveis para a alocanao das observanoes e a 
formanao de clusters . A combina^ao dos outputs encontrados com os provenientes de outras tecnicas pode mais 
fortemente embasar as escolhas do pesquisador e propiciar maior transparency no processo decisorio. 

Ao termino da analise de agrupamentos, como os clusters formados podem ser representados no banco 
de dados por uma nova variavel qualitativa com termos vinculados a cada observa^ao (cluster 1 , cluster 2,..., 
cluster X), a partir dela, podem ser elaboradas outras tecnicas multivariadas exploratorias, como analise de corres¬ 
pondency, a fim de que se estude, dependendo dos objetivos do pesquisador, uma eventual associanao entre os 
agrupamentos e as categorias de outras variaveis qualitativas. 

Essa nova variavel qualitativa, que representa a aloca^ao de cada observa^ao, pode tambem ser utilizada como 
explicativa de determinado fenomeno em modelos multivariados confirmatorios, por exemplo, modelos de re- 
gressao multipla, desde que transformada em variaveis dummy que representem as categorias (clusters) dessa nova 
variavel gerada na analise de agrupamentos. Por outro lado, tal procedimento somente faz sentido quando ha o 
intuito de elaborar um diagnostico acerca do comportamento da variavel dependente, sem que haja a inten^ao 
de previsdes. Como uma nova observa^ao nao possui seu posicionamento em determinado cluster , a obten^ao de 
sua aloca^ao somente e possivel ao se incluir tal observa^ao em nova analise de agrupamentos, a fim de que seja 
obtida uma nova variavel qualitativa e, consequentemente, novas dummies. 

Ademais, essa nova variavel qualitativa tambem pode ser considerada dependente de um modelo de regressao 
logistica multinomial, permitindo que o pesquisador avalie as probabilidades que cada observa^o tern de perten- 
cer a cada um dos clusters formados, em fun^ao do comportamento de outras variaveis explicativas nao inicial- 
mente consideradas na analise de agrupamentos. Ressaltamos, da mesma forma, que esse procedimento depende 
dos objetivos e do constructo estabelecido de pesquisa e apresenta carater de diagnostico do comportamento das 
variaveis na amostra para as observa^oes existentes, sem finalidade preditiva. 

Por fim, se os agrupamentos formados apresentarem substancialidade em rela^ao a quantidade de ob¬ 
servances alocadas, podem inclusive ser aplicadas, com o uso de outras variaveis, tecnicas confirmatorias 
especificas para cada cluster identificado, a fim de que possam eventualmente ser gerados modelos mais 
bem ajustados. 

Na sequencia, o mesmo banco de dados sera utilizado para que se elaborem analises de agrupamentos nos 
softwares SPSS e Stata. Enquanto na se^ao 9.3 serao apresentados os procedimentos para elabora^ao das tecnicas 
estudadas no SPSS, assim como seus resultados, na segao 9.4 serao apresentados os comandos para realiza^ao dos 
procedimentos no Stata, com respectivos outputs. 

9.3. ANALISE DE AGRUPAMENTOS COM ESQUEMAS DE AGLOMERA^AO HIERARQUICOS 
E NAO HIERARQUICOS NO SOFTWARE SPSS 

Nesta se^ao, apresentaremos o passo a passo para a elaboranao do nosso exemplo no IBM SPSS Statistics 
Software®. O principal objetivo e propiciar ao pesquisador uma oportunidade de elaborar analises de agru¬ 
pamentos com esquemas hierarquicos e nao hierarquicos nesse software, dada sua facilidade de manuseio e a 
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didatica das operates. A cada apresenta^ao de um output, faremos men^ao ao respectivo resultado obtido quando 
da solu^ao algebrica nas se^oes anteriores, a fim de que o pesquisador possa compara-los e formar seu conheci- 
mento e erudi^ao sobre o tema. A reprodu^ao das imagens nesta se^ao tem autoriza^ao da International Business 
Machines Corporation®. 

9.3.1. Elaboragao de esquema de aglomeragao hierarquico no software SPSS 

Voltando ao exemplo apresentado na se^ao 9.2.2.1.2, lembremos que nosso professor tem o interesse de agru- 
par estudantes em clusters homogeneos em rela^ao a notas (de 0 a 10) obtidas no vestibular nas disciplinas de 
Matematica, Fisica e Quimica. Os dados encontram-se no arquivo Vestibular.sav e sao exatamente iguais aos 
apresentados naTabela 9.11. Nesta se^ao, realizaremos a analise de agrupamentos fazendo uso da distancia eucli- 
diana entre as observa^oes e levando em considera^ao apenas o metodo de encadeamento unico. 

Para que seja elaborada uma analise de agrupamentos por meio de um metodo hierarquico no SPSS, deve- 
mos clicar em Analyze —> Classify Hierarchical Cluster.... Uma caixa de dialogo como a apresentada na 
Figura 9.25 sera aberta. 



Figura 9.25 Caixa de dialogo para elaboragao da analise de agrupamentos com metodo hierarquico no SPSS. 

Na sequencia, devemos inserir as variaveis originais de nosso exemplo (matematica,fisica e quimica ) em Variables 
e a variavel que identifica as observa^oes (estudante) em Label Cases by, conforme mostra a Figura 9.26. Caso 
o pesquisador nao possua uma variavel que represente o nome das observa^oes (neste caso, uma string), podera 
deixar este ultimo campo sem preenchimento. 



Figura 9.26 Sele^ao das variaveis originais. 
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No botao Statistics..., marcaremos primeiramente as opgoes Agglomeration schedule e Proximity ma¬ 
trix, que fazem com que sejam apresentados, nos outputs , a tabela com o esquema de aglomeragao, elaborada com 
base na medida de distancia a ser escolhida e no metodo de encadeamento a ser definido, e a matriz de distancias 
entre cada par de observa^oes, respectivamente. Ainda manteremos a op^ao None em Cluster Membership. A 
Figura 9.27 mostra como ficara essa caixa de dialogo. 

jp" Hierarchical Cluster Analysis: Stat... ^ | 

BS Agglomeration schedule 
B Proximity matrix 

pCluster Membership—- 

© None 

© Single solution 
i Number of clusters: 

! 1 © Range of solutions 
; Minimum number of clusters: 

i Maximum number of clusters: 

[ Continue ][ Cancel ][j Help j) 


Figura 9.27 Sele^ao das opgoes que geram o esquema de aglomera^ao 
e a matriz de distancias entre pares de observances. 

Ao clicarmos em Continue, voltaremos para a caixa de dialogo principal da analise de agrupamentos hie- 
rarquicos. Na sequencia, devemos clicar no botao Plots.... Conforme mostra a Figura 9.28, iremos selecionar a 
op^ao Dendrogram e a opgao None em Icicle. 

|p Hierarchical Cluster Ana... 88> 


B Dendrogram 


-Icicle 


© All clusters 


© Specified ran ge of dusters 

Start cluster 

I 1 i 

Stop duster: 

CL..J 

ir- 

ii ' 

© None 


"Orientation 


© Vertical 


© Horizontal 



[continue) [ Cancel ] ([ JHelp | 


Figura 9.28 Sele^ao da opgao que gera o dendrograms. 

Da mesma forma, vamos clicar em Continue para que retornemos a caixa de dialogo principal. 

Em Method..., que e a caixa de dialogo mais importante da analise de agrupamentos hierarquicos, devemos 
escolher o metodo de encadeamento unico, tambem conhecido por nearest neighbor ou single linkage. Portanto, em 
Cluster Method, vamos selecionar a op^ao Nearest neighbor. Um curioso pesquisador podera verificar que 
os metodos de encadeamento completo (Furthest neighbor) e medio (Between-groups linkage), estudados 
na se^ao 9.2.2.1, tambem estao disponiveis para sele^ao nesta op^ao. 

Alem disso, como as variaveis do banco de dados sao metricas, vamos escolher uma das medidas de dissimila- 
ridade dispostas em Measure —> Interval. A fim de que seja mantida a mesma logica utilizada quando da resolu- 
£ao algebrica de nosso exemplo, escolheremos a distancia euclidiana como medida de dissimilaridade e, portanto, 
devemos selecionar a op^ao Euclidean distance. Pode-se verificar tambem que, nessa opgao, estao dispostas as 


1 
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outras medidas de dissimilaridade estudadas na se^ao 9.2.1.1, como a distancia quadratica euclidiana, Minkowski, 
Manhattan (Block, no SPSS), Chebychev e a propria correla^ao de Pearson que, embora seja uma medida de 
similaridade, tambem e utilizada para variaveis metricas. 

E importante mencionar que, embora nao fa^amos uso de medidas de semelhan^a neste exemplo, pelo fato 
de nao estarmos trabalhando com variaveis binarias, algumas medidas de similaridade podem ser selecionadas 
caso seja a situa^ao com que se depare o pesquisador. Portanto, conforme estudamos na se^ao 9.2.1.2, podem ser 
selecionadas, em Measure —> Binary, as medidas de emparelhamento simples (Simple matching, no SPSS), 
Jaccard, Dice, AntiDice (Sokal and Sneath 2, no SPSS), Russell e Rao, Ochiai,Yule (Yule's Q, no SPSS), 
Rogers eTanimoto, Sneath e Sokal (Sokal and Sneath 1, no SPSS) e Hamann, entre outras. 

Ainda na mesma caixa de dialogo, o pesquisador pode solicitar que a analise de agrupamentos seja elaborada a 
partir das variaveis padronizadas. Caso seja o intuito, para situates em que as variaveis originais apresentem uni- 
dades de medida distintas, pode ser selecionada a op^ao Z scores em Transform Values —» Standardize, que 
fara todos os calculos serem elaborados a partir da padroniza^ao das variaveis, que passarao a apresentar medias 
iguais a 0 e desvios-padrao iguais a 1. 

Feitas essas considera^oes, a caixa de dialogo no nosso exemplo ficara conforme mostra a Figura 9.29. 

Na sequencia, podemos clicar em Continue e em OK. 

O primeiro output (Figura 9.30) apresenta a matriz de dissimilaridades D 0 composta pelas distancias euclidia- 
nas entre cada par de observances. Podemos notar, inclusive, que, na legenda, consta o dizer “This is a dissimilarity 
matrix ”. Caso essa matriz fosse composta por medidas de semelhan^a, oriundas de calculos elaborados a partir de 
variaveis binarias, o dizer seria “This is a similarity matrix ”. 



Por meio dessa matriz, que e igual aquela cujos valores foram calculados e apresentados na se^ao 9.2.2.1.2, 
podemos verificar que as observa^oes Gabriela e Ovidio sao as mais similares (menor distancia euclidiana) em 
rela^ao as variaveis matematica,fisica e quimica (d Gabriela _ 0v idio = 3,713). 


Proximity Matrix 

Euclidean Distance 

1:Gabriela I 2:Luiz Felipe j 3Patricia I 4:Ovidio 5:Leonor 



This is a dissimilarity matrix 

Figura 9.30 Matriz de distancias euclidianas (medidas de dissimilaridade) entre pares de observances. 
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Portanto, no esquema hierarquico apresentado na Figura 9.31, o primeiro estagio de aglomeragao justa- 
mente ocorre pela fusao desses dois estudantes, com Coefficient (distancia euclidiana) igual a 3,713. Note 
que as colunas Cluster Combined Cluster 1 e Cluster 2 referem-se a observagoes isoladas, quando ainda 
nao incorporadas a determinado agrupamento ou a dusters ja formados. Obviamente, no primeiro estagio de 
aglomeragao, o primeiro duster e formado pela fusao de duas observagoes isoladas. 


Agglomeration Schedule 


Stage 

Cluster Combined 

Coefficients 

Stage Cluster First Appears 

Next Stage 

Cluster 1 

Cluster 2 

Cluster 1 

Cluster 2 

1 

1 

4 

3,713 

0 

0 

2 

2 

1 

5 

4,170 

1 

0 

3 

3 

1 

3 

6,045 

2 

0 

4 

4 

1 

2 

7,187 

3 

0 

0 


Figura 9.31 Esquema hierarquico de aglomeragao - Metodo de encadeamento unico e distancia euclidiana. 

Na sequencia, no segundo estagio, a observagao Leonor (5) e incorporada ao duster ja formado anteriormen- 
te por Gabriela (1) e Ovidio (4). Podemos verificar que, em se tratando do metodo de encadeamento unico, a 
distancia considerada para a aglomeragao de Leonor foi a menor entre essa observagao e Gabriela ou Ovidio, 
ou seja, o criterio adotado foi: 


^(Gabriela-Ovidio) Leonor min {4,170, 5,474} 4,170 

Podemos notar tambem que, enquanto as colunas Stage Cluster First Appears Cluster 1 e Cluster 2 in¬ 
dicam em qual estagio anterior cada correspondente observagao foi incorporada a determinado agrupamento, a 
coluna Next Stage mostra em qual futuro estagio o respectivo duster recebera uma nova observagao ou agrupa¬ 
mento, dado que estamos lidando com um metodo aglomerativo. 

No terceiro estagio, ao duster ja formado, Gabriela-Ovidio-Leonor, e incorporada a observagao Patricia 
(3), respeitando-se o seguinte criterio de distancia: 

^(Gabriela-Ovidio-Leonor) Patricia min 18,420, 6,580, 6,045} 6,045 

E, por fim, no quarto e ultimo estagio, dado que temos cinco observagoes, a observagao Luiz Felipe, ainda 
isolada (note que a ultima observagao a ser incorporada a um duster corresponde ao ultimo valor igual a 0 na 
coluna Stage Cluster First Appears Cluster 2), passa a ser incorporada ao duster ja formado pelas demais ob¬ 
servagoes, encerrando-se o esquema aglomerativo. A distancia considerada nesse estagio e dada por: 

^(Gabriela-Ovidio-Leonor-Patricia) Luiz Felipe = 111111 {10,132; 10,290; 8,223; 7,187} = 7,187 

Com base na ordenagao das observagoes no esquema de aglomeragao e nas distancias utilizadas como crite¬ 
rio de agrupamento, pode ser construido o dendrograma, que se encontra na Figura 9.32. Note que as medidas 
de distancia sao rescalonadas para a construgao dos dendrogramas no SPSS, a fim de que possa ser facilitada a 
interpretagao da alocagao de cada observagao nos dusters e, principalmente, a visualizagao dos maiores saltos de 
distancia, conforme discutimos na segao 9.2.2.1.2.1. 

O ordenamento das observagoes no dendrograma corresponde ao que foi apresentado no esquema de aglo¬ 
meragao (Figura 9.31) e, a partir da analise da Figura 9.32, e possivel identificar que o maior salto de distancia 
ocorre quando da fusao de Patricia com o duster ja formado Gabriela-Ovidio-Leonor. Esse salto ja podia ter 
sido identificado no esquema de aglomeragao da Figura 9.31, visto que um grande aumento de distancia ocorre 
quando se passa do segundo para o terceiro estagio, ou seja, quando se incrementa a distancia euclidiana de 4,170 
para 6,045 (44,96%) para que novo duster possa ser formado pela incorporagao de outra observagao. Portanto, 
podemos op tar pela configuragao existente ao final do segundo estagio de aglomeragao, em que sao formados 
tres dusters . Conforme discutimos na segao 9.2.2.1.2.1, o criterio para a identificagao da quantidade de 
clusters que leva em consideragao o estagio de aglomeragao imediatamente anterior a um grande 
salto e bastante util e muito adotado. 
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Figura 9.32 Dendrograma - Metodo de encadeamento unico e distances euclidianas reescalonadas no SPSS. 

A Figura 9.33 apresenta uma linha vertical (tracejada) que “corta” o dendrograma na regiao em que ocor- 
rem os maiores saltos. Neste momento, como acontecem tres encontros com linhas do dendrograma, podemos 
identificar tres correspondentes dusters , formados, respectivamente, por Gabriela-Ovidio-Leonor, Patricia e 
Luiz Felipe. 



Figura 9.33 Dendrograma com identifka$ao dos dusters. 
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Conforme discutimos, e comum encontramos dendrogramas que ofere^am certa dificuldade para 
que se identifiquem saltos de distancia, muito em fun^ao da existencia de observances consideravelmente 
similares no banco de dados em rela^ao a todas as variaveis em analise. Nessas situates, e recomendavel que se 
utilize a medida de distancia quadratica euclidiana e metodo de encadeamento completo {furthest nei¬ 
ghbor). Essa combinanao de criterios e bastante popular em bases de dados com observances muito 
homogeneas. 

Adotada a solu^ao com tres clusters, podemos novamente clicar em Analyze —■» Classify —> Hierarchical 
Cluster... e, no botao Statistics..., selecionar a opnao Single solution em Cluster Membership. Nessa op¬ 
nao, devemos inserir o numero 3 em Number of clusters, conforme mostra a Figura 9.34. 


P Hierarchical Cluster Analysis: Stat... ^ 


S2 Agglomeration schedule 
S5 Proximity matrix 

-Cluster Membership-- 

© None 

© Single solution 
Number of clusters: 

©Range of solutions 
Minimum number of clusters: 

Maximum number of clusters 
[continue] (""cancel | [ Help ] 


Figura 9.34 Defininao da quantidade de clusters. 

Ao clicarmos em Continue, retornaremos a caixa de dialogo principal da analise de agrupamentos. No botao 
Save..., vamos agora selecionar a opnao Single solution e, da mesma forma, inserir o numero 3 em Number 
of clusters, conforme mostra a Figura 9.35, a fim de que nova variavel correspondente a aloca^ao das observa¬ 
nces nos agrupamentos seja disponibilizada no banco de dados. 


p Hierarchical Cluster Analysis: S... 


-Cluster Membership 


© None 


© Single solution 


Number of dusters: 

3 

© Range of solutions 


Minimum number of clusters: i 

| 

Maximum number of clusters: 



Continue] ( Cancel ][ Help j 


Figura 9.35 Selenao da opnao para salvar a aloca^ao das observances nos clusters como 
nova variavel no banco de dados - Procedimento hierarquico. 

Na sequencia, podemos clicar em Continue e em OK. 

Embora os outputs gerados sejam os mesmos, e importante notar que uma nova tabela de resultados e apre- 
sentada, correspondente a alocagao propriamente dita das observances nos clusters. A Figura 9.36 mostra, para tres 
agrupamentos, que, enquanto as observances Gabriela, Ovidio e Leonor formam um unico cluster, nomeado 
por 1, as observances Luiz Felipe e Patricia formam dois clusters individuais, nomeados, respectivamente, por 2 
e 3. Embora as nomeanoes sejam numericas, e importante ressaltar que representam apenas rotulos (categorias) 
de uma variavel qualitativa. 


3 
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Cluster Membership 


Case 

3 Clusters 

1 :Gabriela 

1 

2:Luiz Felipe 

2 

3 Patricia 

3 

4:Ovidio 

1 

5:Leonor 

1 


Figura 9.36 Aloca^ao das observances nos dusters. 

Ao elaborarmos o procedimento descrito, podemos verificar que e gerada uma nova variavel no banco de 
dados, chamada pelo SPSS de CLU3_1 , conforme mostra a Figura 9.37. 


| RIe Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add: 



y 




| estudante 

matematica 

ffsica 

quimica 

CLU3J 

1 

1 Gabriels 

3,7 

2,7 

0,1 

1 

; 2. 

jLuiz Felipe 

7,8 

8,0 

1,5 

2 

.3 

Patricia 

8,9 

1,0 

2,7 

3 

4 

|Ovfdio 

7,0 

1.0 

3,0 

1 

5 

Leaner 

3,4 

2,0 

5,0 

1 


Figura 9.37 Banco de dados com nova variavel CLU3_ 7 - Alocanao de cada observac^ao. 


A natureza dessa nova variavel e automaticamente classificada pelo software como Nominal, ou seja, qualitati- 
va, conforme podemos comprovar na Figura 9.38, que pode ser obtida ao clicarmos em Variable View, no canto 
inferior esquerdo da tela do SPSS. 
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\ Input 
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Single Linkage None 
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\ Input 


Figura 9.38 Classifica^ao nominal (qualitativa) da variavel CLU3_1. 


Conforme discutimos, a variavel CLU3_1 pode ser utilizada em outras tecnicas exploratorias, como analise de cor¬ 
respondence, ou em tecnicas confirmatorias. Neste ultimo caso, pode ser inserida, por exemplo, no vetor de variaveis 
explicativas (desde que transformada para dummies) de um modelo de regressao multipla, ou como variavel dependente 
de determinado modelo de regressao logistica multinomial em que haja a inten^ao de estudar o comportamento de 
outras variaveis nao inseridas na analise de agrupamentos sobre a probabilidade de inser^ao de cada observa^ao em cada 
um dos clusters formados. Essa decisao, no entanto, depende dos objetivos e do constructo de pesquisa. 

Neste momento, o pesquisador pode considerar a analise de agrupamentos com esquemas de aglomera^ao 
hierarquicos finalizada. Entretanto, com base na cria^ao da nova variavel CLU3_1 , podera ainda estudar, por 
meio da analise de variancia de um fator, se os valores de determinada variavel diferem-se entre os clusters for¬ 
mados, ou seja, se a variabilidade entre os grupos e significativamente superior a variabilidade interna a cada um 
deles. Mesmo que a analise nao tenha sido elaborada quando da resolu^ao algebrica dos esquemas hierarquicos, 
visto que optamos por realiza-la apenas apos o procedimento k-means , na se^ao 9.2.2.2.2, mostraremos a seguir 
como pode ser aplicada neste momento, visto que ja temos a aloca^ao das observa^oes nos grupos. 

Para tanto, vamos clicar em Analyze -4 Compare Means —» One-Way ANOVA..., Na caixa de dialogo 
que sera aberta, devemos inserir as variaveis matematica, jisica e quimica em Dependent List e a variavel CLU3_1 
(Single Linkage) em Factor. A caixa de dialogo ficara conforme mostra a Figura 9.39. 
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One-Way ANOVA 


Dependent List 


& nota de matematica... 
$ nota de fisfca (0 a 1.... 
$ nota de qmmica (0... 



j Cogtra ste.., j 
( fiostHos.. ] 
[ Options.,. ] 
(gpotstrapT] 


[ Ok-)[ Paste ] [ Reset ] [cancel ] [ Help 


Figura 9.39 Caixa de dialogo com sele^ao das variaveis para elabora^ao da analise de variancia de um fator no SPSS. 


No botao Options..., marcaremos as op^oes Descriptive (em Statistics) e Means plot, como mostra a Figura 
9.40. 


Ip One-Way ANOVA: Options u 

[-Statistics— - ■ —: 

0 Descriptive 

□ Fixed and random effects 

□ Homogeneity ofvariance test 
j D Brown-Forsythe 

; □ Welch 

SI M eans pio* 

rts/lissing Values. . . - 

© Exclude cases analysis by analysis 
© Exclude cases Ttstwise 

[ ContinuT] [ cancel ] l 


Figura 9.40 Selegao de opgaes para realiza^ao da analise de variancia de um fator. 

Na sequencia, podemos clicar em Continue e em OK. 

Enquanto a Figura 9.41 apresenta as estatisticas descritivas dos clusters por variavel, de forma correspondente 
asTabelas 9.23, 9.24 e 9.25, a Figura 9.42 faz uso desses valores e apresenta o calculo das variabilidades entre os 
grupos (Between Groups) e dentro dos grupos (Within Groups),bem como as estatisticas Fpara cada variavel 
e os respectivos niveis de significance. Podemos verificar que esses valores correspondem aos calculados algebri- 
camente na se$ao 9.2.2.2.2 e apresentados naTabela 9.29. 


Descriptives 



N 

Mean 

Std. Deviation 

Std. Error 


Minimum 

Maximum 



nota de matematica (0 a 1 

3 

4,700 

1,9975 

1,1533 

-,262 

9,662 

3,4 

7,0 

10) 2 

1 

7,800 





7,8 

7,8 

3 

1 

8,900 





8,9 

8,9 

Total 

5 

6,160 

2,4785 

1,1084 

3,083 

9,237 

3,4 

8,9 

nota de ffsica (0 a 10) 1 

3 

1,900 

,8544 

,4933 

-,222 

4,022 

1,0 

2,7 

2 

1 

8,000 





8,0 

8,0 

3 

1 

1,000 





1,0 

1,0 

Total 

5 

2,940 

2,9186 

1,3052 

-,684 

6,564 

1,0 

8,0 

nota de quimica (0 a 10) 1 

3 

7,700 

2,3388 

1,3503 

1,890 

13,510 

5,0 

9,1 

2 

1 

1,500 





1,5 

1,5 

3 

1 

2,700 





2,7 

2,7 

Total 

5 

5,460 

3,5104 

1,5699 

1,101 

9,819 

1,5 

9,1 


Figura 9.41 Estatisticas descritivas dos dusters por variavel. 
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ANOVA 



Sum of 
Squares 

df 

Mean Square 

F 

Sig. 

nota de matematica (0 a 

Between Groups 

16,592 

2 

8,296 

2,079 

,325 

10) 

Within Groups 

7,980 

2 

3,990 




Total 

24,572 

4 




nota de fisica (0 a 10) 

Between Groups 

32,612 

2 

16,306 

22,337 

,043 


Within Groups 

1,460 

2 

,730 




Total 

34,072 

4 




nota de quimica (0 a 10) 

Between Groups 

38,352 

2 

19,176 

3,506 

,222 


Within Groups 

10,940 

2 

5,470 




Total 

49,292 

4 





Figura 9.42 Analise de variancia de um fator - Variabilidades entre grupos e dentro dos grupos, 
estatisticas Fe niveis de significancia por variavel. 


A partir da Figura 9.42, podemos verificar que o sig. F para a variavel fisica e menor que 0,05 (sig. F - 0,043), 
ou seja, existe pelo menos um grupo que apresenta media estatisticamente diferente dos demais ao nivel de sig¬ 
nificancia de 5%. Porem, o mesmo nao pode ser dito em rela^ao as variaveis matematica e quimica. 

Embora tenhamos uma ideia acerca de qual grupo apresenta media estatisticamente diferente dos demais para 
a variavel fisica, com base nos outputs da Figura 9.41, a elabora^ao de graficos pode facilitar ainda mais a analise 
das diferen^as de medias das variaveis por cluster . Os graficos gerados pelo SPSS (Figuras 9.43, 9.44 e 9.45) per- 
mitem que visualizemos essas diferen^as entre os grupos para cada variavel analisada. 

Logo, a partir do grafico da Figura 9.44, e possivel visualizar que o grupo 2, formado apenas pela observa^ao 
Luiz Felipe, apresenta, de fato, media diferente dos demais em rela^ao a variavel fisica. 

Alem disso, embora notemos, a partir dos graficos das Figuras 9.43 e 9.45, que existem diferen^as de me¬ 
dias das variaveis matematica e quimica entre os grupos, essas diferen^as nao podem ser consideradas estatisti¬ 
camente significantes, ao nivel de significancia de 5%, visto que estamos lidando com uma quantidade muito 
pequena de observa^oes, e os valores da estatistica F sao bastante sensiveis ao tamanho da amostra. Essa analise 
grafica torna-se bastante util quando do estudo de bancos de dados com uma quantidade maior de observa- 
£oes e variaveis. 



Figura 9.43 Medias da variavel matematica nos tres clusters. 
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Figura 9.44 Medias da variavel ffsica nos tres dusters . 



Figura 9.45 Medias da variavel qufmico nos tres dusters. 


Por fim, o pesquisador pode ainda complementar sua analise elaborando um procedimento conhecido por 
escalonamento multidimensional, ja que o uso da matriz de distancias pode propiciar a elabora^ao de um 
grafico que permite a visualiza^ao das posi^oes relativas de cada observagao de forma bidimensional, indepen- 
dentemente da quantidade total de variaveis. 

Para tanto, devemos estruturar um novo banco de dados, formado justamente pela matriz de distancias. Para 
os dados de nosso exemplo, podemos abrir o arquivo VestibularMatriz.sav, que contem a matriz de distan¬ 
cias euclidianas apresentada na Figura 9.46. Note que as colunas desse novo banco de dados se referem as ob¬ 
servances do banco de dados original, assim como as linhas (matriz quadrada de distancias). 
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% ___ 

File Edit View Data Transform Analyze Direct Marketing 



tT' 'n 



Graphs 



Utilities 



| | Gabriels 

LuizFelipe 

j Patncia 

Ovfdio 

Leonor 

; 

; 1 ' 

0 

0 

0 

10,132 

8,420 

3,713 

4,170 


! 2 

10,132 

,000 

7,187 

10,290 

8,223 


r 3 

8,420 

7,187 

,000 

6,580 

6,045 


!'■ ^ 4 

3,713 

10,290 

6,580 

,000 

5,474 


5 

4,170 

8,223 

6,045 

5,474 

,000 



Figura 9.46 Banco de dados com a matriz de distances euclidianas. 


Vamos clicar em Analyze —> Scale —> Multidimensional Scaling (ASCAL).... Na caixa de dialogo que 
sera aberta, devemos inserir as variaveis que representam as observances em Variables, conforme mostra a Figura 
9.39. Como os dadosja correspondem a distancias, nada precisara ser feito em rela^ao ao campo Distances. 


Ip 


Multidimensional Scaling 



Variables; 

$ G a bri e l a 
$ LuizFelipe 
$ Pa tn’ci a 

# Ovidio 

# iLeonor 




individual Matrices for: 


-Distances — --——--—— -— 

© Data are distances 
[ Shape. ] Square symmetric 
© Create distances from data 
| Measure.. j Euclidean distance 

[ QK ][ Paste ][ Reset ][ Cancel ][ Help ] 


Figura 9.47 Caixa de dialogo com sele^ao das variaveis para elabora^ao de escalonamento multidimensional no SPSS. 


No botao Model..., marcaremos a op^ao Ratio em Level of Measurement (note que ja esta selecionada 
a op^ao Euclidean distance em Scaling Model) e, no botao Options..., a op<^ao Group plots em Display, 

conforme mostram, respectivamente, as Figuras 9.48 e 9.49. 


|ps Multidimensional Scaling: Model 


-Level of Measurement-- 

© Ordinal: 

n Untie tied observations 
© Interval 
© Ratio 


-Conditionality——-- 

© Matrix 
© Row 

© Unconditional 

-Dimensions---- 

Minimum: [2 | Maximum: [2 | 


-Scaling Model*---*-”— r ; 

© Euclidean distance 

© individual differences Euclidean distance: 

FI Allow negative subject weights 

[continue] [ Cancel j [ Help ] 


Figura 9.48 Definigao da natureza da variavel correspondente a medida de distancia. 
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t* Multidimensional Scaling: Options 1tl& 

r D i s play — — ? -——— — -=-| 

0 Group plots 
i O Individual subject plots 
! O Data matrix 

□ Model and options summary 


rCriteria- 


S-stress convergence: 
Minimum s-stress value: 
Maxi mum iterati ons: 


|0,001 

[ 0,005 

[i0 


Treat distances less than: 


as missing 


[continue] [ Cancel ][ Help 


Figura 9.49 Sele^ao de op<;ao para elabora^ao de grafico bidimensional. 


Na sequencia, podemos clicar em Continue e em OK. 

A Figura 9.50 apresenta o grafico com as posi^oes relativas das observa^oes projetadas em um piano. 

Esse tipo de grafico e bastante util quando se deseja elaborar apresenta^oes didaticas sobre o agrupamento de 
observa^oes (individuos, empresas, municipios, paises, entre outros exemplos) e facilitar a interpreta^ao dos clus¬ 
ters, principalmente quando ha uma quantidade relativamente grande de variaveis no banco de dados. 


i.ol 


0,5 H 


^ o,o- 

o 

*<7> 

c 


O -0,5 H 


■1.01 


-1.51 


-2 


Derived Stimulus Configuration 
Euclidean distance model 


Luiz Felipe 

O 

Leonor Gabriela 

O ° 


Ovidio 


O 

Ratricia 


O 



o 1 

Dimension 1 


Figura 9.50 Grafico bidimensional com as posi^oes relativas projetadas das observances. 


93.2. Elabora<;ao do esquema de aglomera^ao nao hierarquico k-means no software SPSS 

Mantendo a logica proposta no capitulo, elaboraremos, a partir do mesmo banco de dados, uma analise de 
agrupamentos com base no esquema de aglomera^ao nao hierarquico k-means. Portanto, devemos novamente 
fazer uso do arquivo Vestibular, sav. 
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Para tanto, devemos clicar em Analyze —> Classify —> K-Means Cluster..., Na caixa de dialogo que se¬ 
ra aberta, devemos inserir as variaveis matematica,fisica e quimica em Variables, e a variavel estudante em Label 
Cases by. A principal diferen^a entre essa caixa de dialogo inicial e aquela correspondente ao procedimento 
hierarquico refere-se a determina^ao da quantidade de clusters a partir da qual o algoritmo k-means sera elabora- 
do. Em nosso exemplo, vamos inserir o numero 3 em Number of Clusters. A Figura 9.51 mostra como ficara 
a caixa de dialogo. 

Podemos notar que inserimos as variaveis originais no campo Variables. Esse procedimento e aceitavel, visto 
que, para nosso exemplo, possuem valores na mesma unidade de medida. Entretanto, caso esse fato nao se veri- 
fique, o pesquisador devera, antes de elaborar o procedimento k-means , padroniza-las pelo procedimento Zscores, 
em Analyze —» Descriptive Statistics —> Descriptives..., inserir as variaveis originais em Variables e sele- 
cionar a opgao Save standardized values as variables. Ao clicar em OK, o pesquisador ira verificar que novas 
variaveis padronizadas passarao a compor o banco de dados. 


¥ 


K-Means Cluster Analysts 


Variables: 



& nota de matematica (0 a 10) fmatemati... 

nota de frsica (0 a 10) fffsica] 

$ nota de quimica (0 a 10) [quimica] 


[ [terate... | 
[ Save... ] 
[ Options... ] 


—' Label Cases by: 


1 St estudante 


Number of Clusters 


rMethod- 


® Iterate and classify © Classify only 


•Cluster Centers- 

O R £3d initial: 

© Open dataset j~ 

© External data file j nig ] 
B Write final: 

©New dataset 

©Datafile fVTle.J 




[ 0K I f Paste ](~Reset ][cancel][ Help ] 


Figura 9.51 Caixa de dialogo para elabora^ao da analise de agrupamentos com metodo nao hierarquico k-means no SPSS. 


Voltando a tela inicial do procedimento k-means , vamos clicar no botao Save..., Na caixa de dialogo que sera 
aberta, devemos selecionar a op^ao Cluster membership, conforme mostra a Figura 9.52. 

¥ <-Means Ouster: Save ... 23 

HI Cluster membership 
B Distance from cluster center 

[continue ] [^Cancel | [Qhleip |] 


Figura 9.52 Sele^ao da op^ao para salvar a aloca^ao das observances nos clusters como 
nova variavel no banco de dados - Procedimento nao hierarquico. 


Ao clicarmos em Continue, voltaremos a caixa de dialogo anterior. No botao Options..., vamos selecionar 
as op^oes Initial cluster centers, ANOVA table e Cluster information for each case, em Statistics, con- 
forme mostra a Figura 9.53. 

Na sequencia, podemos clicar em Continue e em OK.E importante mencionar que o SPSS ja utiliza como 
padrao a distancia euclidiana como medida de dissimilaridade quando da elabora^ao do procedimento k-means. 
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fr- K'Means Cluster Analysis:... 


-Stati sti cs-— 

0 Initial cluster centers 
0 ANOVA table 

0 Cluster information for each case 

-Missing Values*- 

© Exclude cases listwise 
© Exclude cases gairwise 


[continue] Cancel ]|_Hglp J 


Figura 9.53 Sele<;ao de op^oes para realiza^ao do procedimento k-means . 


Os dois primeiros outputs gerados referem-se ao passo inicial e ao procedimento iterativo do algoritmo k- 
-means. Sao apresentadas as coordenadas dos centroides no passo inicial e, por meio dos quais, podemos perceber 
que o SPSS considera que os tres clusters sejam formados, respectivamente, pelas tres primeiras observa^oes do 
banco de dados. Embora essa decisao seja diferente da adotada por nos na se^ao 9.2.2.2.2, essa escolha e pura- 
mente arbitraria, e, conforme poderemos verificar adiante, nao afetara em nada a forma^ao dos clusters no passo 
final do algoritmo k-means. 

Enquanto a Figura 9.54 apresenta os valores propriamente ditos das variaveis originais para as observa^oes 
Gabriela, Luiz Felipe e Patricia (conforme mostra aTabela 9.15) como coordenadas dos centroides dos tres 
grupos, na Figura 9.55 podemos verificar, apos a primeira itera^ao do algoritmo, que a mudan^a de coordenada 
do centroide do primeiro cluster e de 1,897, que corresponde exatamente a distancia euclidiana entre a observa- 
£ao Gabriela e o cluster Gabriela-Ovidio-Leonor (conforme mostra aTabela 9.22). Nessa ultima figura, ainda 
e possivel verificar a men^ao, em seu rodape, a medida de 7,187, que corresponde a distancia euclidiana entre as 
observances Luiz Felipe e Patricia, que permanecem isoladas apos o procedimento iterativo. 


Initial Cluster Centers 



Cluster | 


1 

2 

3 

nota de matematica (0 a 

10) 

3,7 

7,8 

8,9 

nota de fisica (0 a 10) 

2,7 

8,0 

1,0 

nota de quimica (0 a 10) 

9,1 

1,5 

2,7 


Figura 9.54 Passo inicial do algoritmo k-means - Centroides dos tres grupos como coordenadas das observances. 


Iteration History 3 



Change in Cluster Centers j 

Iteration 

1 

2 

3 

1 

1,897 

,000 

,000 

2 

,000 

,000 

,000 


a. Convergence achieved due to no or 
small change in cluster centers. The 
maximum absolute coordinate change 
for any center is ,000. The current 
iteration is 2. The minimum distance 
between initial centers is 7,187. 

Figura 9.55 Primeira itera^ao do algoritmo k-means e mudan^a nas coordenadas dos centroides. 


As tres figuras seguintes referem-se ao estagio final do algoritmo k-means. Enquanto o output Cluster Member¬ 
ship (Figura 9.56) mostra a aloca^ao de cada observa^ao em cada um dos tres clusters, bem como as distancias 
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euclidianas entre cada observa^ao e o centroide do respectivo grupo, o output Distances between Final Cluster 
Centers (Figura 9.58) apresenta as distancias euclidianas entre os centroides dos grupos. Esses dois outputs trazem 
valores ja calculados algebricamente na se^ao 9.2.2.2.2 e apresentados naTabela 9.22. Alem disso, o output Final 
Cluster Centers (Figura 9.57) apresenta as coordenadas dos centroides dos grupos apos o estagio final desse pro- 
cedimento nao hierarquico, que correspondem aos valores ja calculados e apresentados naTabela 9.21. 


Cluster Membership 


Case Number 

estudante 

Cluster 

Distance 

1 

Gabriela 

1 

1,897 

2 

Luiz Felipe 

2 

,000 

3 

Patricia 

3 

,000 

4 

Ovidio 

1 

2,791 

5 

Leonor 

1 

2,998 


Figura 9.56 Estagio final do algoritmo k-means - Aloca^ao das observances e distancias a centroides de respectivos dusters. 


Final Cluster Centers 



Cluster } 


1 

2 

3 

nota de matematica (0 a 

10) 

4,7 

7,8 

8,9 

nota de fisica (0 a 10) 

T9 

8,0 

1,0 

nota de qufmica (0 a 10) 

7,7 

1,5 

2,7 


Figura 9.57 Estagio final do algoritmo k-means - Coordenadas dos centroides dos dusters. 


Distances between Final Cluster Centers 


Cluster 

1 

2 

3 

1 


9,234 

6,592 

2 

9,234 


7,187 

3 

6,592 

7,187 



Figura 9.58 Estagio final do algoritmo k-means - Distancias entre os centroides dos dusters. 

O output ANOVA (Figura 9.59) e analogo aquele apresentado naTabela 9.29 da se^ao 9.2.2.2.2 e na Figura 
9.42 da se^ao 9.3.1 e, por meio do qual, podemos verificar que apenas a variavel Jisica apresenta media estatistica- 
mente diferente em pelo menos um dos grupos formados em rela^ao aos demais, ao nivel de 5% de significance. 

Conforme discutimos anteriormente, caso uma ou mais variaveis nao estejam contribuindo para a forma- 
£ao da quantidade sugerida de agrupamentos, sugere-se que o algoritmo seja reaplicado sem a presen^a dessas 
variaveis. O pesquisador pode inclusive fazer uso de um procedimento hierarquico sem a presen^a das referidas 
variaveis antes da reaplica^ao do procedimento k-means. Para os dados de nosso exemplo, entretanto, a analise se 
tornaria univariada pela exclusao das variaveis matematica e quimica, o que comprova o risco que o pesquisador 
assume ao trabalhar com bancos de dados muito pequenos em analise de agrupamentos. 


ANOVA 



Cluster 

Error 





Mean Square 

df 

Mean Square 

df 

F 

Sig. 

nota de matematica (0 a 

10) 

8,296 

2 

3,990 

2 

2,079 

,325 

nota de fisica (0 a 10) 

16,306 

2 

,730 

2 

22,337 

,043 

nota de quimica (0 a 10) 

19,176 

2 

5,470 

2 

3,506 

,222 


The F tests should be used only for descriptive purposes because the clusters have been chosen to 
maximize the differences among cases in different clusters. The observed significance levels are not 
corrected for this and thus cannot be interpreted as tests of the hypothes is that the cluster means are 
equal. 

Figura 9.59 Analise de variancia de um fator no procedimento k-means - Variabilidades 
entre grupos e dentro dos grupos, estatisticas F e niveis de significance por variavel. 
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E importante mencionar que o output ANOVA deve ser utilizado apenas para o estudo das variaveis que mais 
contribuem para a formagao da quantidade especificada de dusters , visto que esta e escolhida para que sejam ma- 
ximizadas as diferengas entre as observagoes alocadas em grupos distintos. Portanto, como explicita o rodape des- 
se output , nao se pode utilizar a estatistica F com o intuito de verificar a igualdade ou nao dos grupos formados. 
Por essa razao, nao e raro que encontremos na literatura o termo pseudo F para essa estatistica. 

Por fim, a Figura 9.60 mostra a quantidade de observagoes em cada um dos dusters. 


Number of Cases in each 
Cluster 


Cluster 1 

3,000 

2 

1,000 

3 

1,000 

Valid 

5,000 

Missing 

,000 


Figura 9.60 Quantidade de observagoes em cada cluster. 


Analogamente ao procedimento hierarquico, podemos verificar que e gerada uma nova variavel (obviamen- 
te qualitativa) no banco de dados apos a elaboragao do procedimento k-means , chamada pelo SPSS de QCL_i , 
conforme mostra a Figura 9.61. 



File Ecfit View Data Transform Analyze Direct Marketing Graphs Utilities Add 




estudante 

matematica 

| fisica 

quimica 

: QCt_1 . 

r i 

Gabriela 

3,7 

2,7 

9,1 

1 

2 n 

Luiz Felipe 

7.8 

80 

1,5 

2 

. 3 . 

Patricia 

8,3 

1,0 

2,7 

3 

4 

Ovidio 

7,0 

1,0 

9,0 

1 

. 5 . 

Leonor 

3.4 

2,0 

5,0 

1 


Figura 9.61 


Banco de dados com nova variavel QCL_1 - Alocagao de cada observagao. 


Essa variavel acabou sendo identica a variavel CLU3_1 (Figura 9.37) neste exemplo. Porem, esse fato nem 
sempre acontece para uma quantidade maior de observagoes e nos casos em que sao utilizadas medidas de dissi- 
milaridade distintas nos procedimentos hierarquico e nao hierarquico. 

Apresentados os procedimentos para aplicagao da analise de agrupamentos no SPSS, partiremos para a elabo¬ 
ragao da tecnica no Stata. 

9 . 4 . anAlise de agrupamentos com esquemas de aglomera^Ao hierArquicos 
e nao hierArquicos no software stata 

Apresentaremos agora o passo a passo para a elaboragao de nosso exemplo no Stata Statistical Software®. 
Nosso objetivo, nesta segao, nao e discutir novamente os conceitos pertinentes a analise de agrupamentos, mas 
propiciar ao pesquisador uma oportunidade de elaborar a tecnica por meio dos comandos desse software. A cada 
apresentagao de um output , faremos mengao ao respectivo resultado obtido quando da aplicagao da tecnica de 
forma algebrica e tambem por meio do SPSS. A reprodugao das imagens apresentadas nesta segao tern autoriza- 
gao da StataCorp LP®. 

9.4.1 • Elaboragao de esquemas de aglomeragao hierarquicos no software Stata 

Ja partiremos, portanto, para o banco de dados elaborado pelo professor a partir dos levantamentos das notas 
de Matematica, Fisica e Quimica obtidas no vestibular por cinco alunos. O banco de dados encontra-se no ar- 
quivo Vestibular.dta e e exatamente igual ao apresentado naTabela 9.11 da segao 9.2.2.1.2. 

Inicialmente, podemos digitar o comando desc, que possibilita a analise das caracteristicas do banco de dados, 
como a quantidade de observagoes, a quantidade de variaveis e a descrigao de cada uma. A Figura 9.62 apresenta 
o primeiro output do Stata. 
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. desc 





obs: 

5 




vars: 

4 




size: 

135 

(99.9% of 

memory free) 



storage 

display 

value 


variable name 

type 

format 

label 

variable label 

estudante 

strll 

%lls 



matematica 

float 

%9. If 


nota de matematica (0 a 10) 

f1sica 

float 

%9. If 


nota de fisica (0 a 10) 

quimica 

float 

%9. If 


nota de quimica (0 a 10) 

|| Sorted by: If 


Figura 9.62 Descrigao do banco de dados Vestibular.dta. 


Conforme ja discutimos, como as variaveis originais apresentam valores na mesma unidade de medida, nao e 
necessario padroniza-las pelo procedimento Zscores nesse exemplo. Entretanto, caso o pesquisador deseje, podera 
obter as variaveis padronizadas por meio dos seguintes comandos: 

egen zmatematica = std(matematica) 
egen zfisica = std(fisica) 

egen zquimica = std(quimica) 

Inicialmente, vamos obter a matriz de distancias entre os pares de observances. De maneira geral, a sequencia 
de comandos para a obten^ao de matrizes de distancia ou de semelhan^a no Stata e: 

matrix dissimilarity D = variaveis*, opgao* 

matrix list D 

em que o termo variaveis* devera ser substituido pela lista de variaveis a serem consideradas na analise, e o 
termo opgao* devera ser substituido pelo termo correspondente a medida de distancia ou de semelhan^a que 
se deseja utilizar. Enquanto o Quadro 9.2 apresenta os termos do Stata correspondentes a cada uma das medidas 
para variaveis metricas estudadas na se^ao 9.2.1.1, o Quadro 9.3 apresenta os termos referentes as medidas utili- 
zadas para variaveis binarias estudadas na se^ao 9.2.1.2. 


Quadro 9.2 Termos do Stata correspondentes as medidas para variaveis metricas. 


Medida para Variaveis Metricas 

Termo do Stata 

Euclidiana 

L2 

Quadratica euclidiana 

L2squared 

Manhattan 

LI 

Chebychev 

Linf 

Canberra 

Canberra 

Correla^ao de Pearson 

corr 


Quadro 9.3 Termos do Stata correspondentes as medidas para variaveis binarias. 


Medida para Variaveis Binarias 

Termo do Stata 

Emparelhamento simples 

matching 

Jaccard 

Jaccard 

Dice 

Dice 

AntiDice 

antiDice 

Russell e Rao 

Russell 

Ochiai 

Ochiai 

Yule 

Yule 

Rogers e Tanimoto 

Rogers 

Sneath e Sokal 

Sneath 

Hamann 

Hamann 
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Portanto, como desejamos obter a matriz de distancias euclidianas entre os pares de observances, a fim de que 
seja mantido o criterio adotado no capitulo, devemos digitar a seguinte sequencia de comandos: 

matrix dissimilarity D = matematica fisica quimica, L2 

matrix list D 

O output gerado, que se encontra na Figura 9.63, esta em conformidade com o apresentado na matriz D 0 da 
se^ao 9.2.2.1.2.1, e tambem na Figura 9.30 quando da elabora^ao da tecnica no SPSS (se^ao 9.3.1). 


. matrix dissimilarity D = matematica fisica quimica, L2 
. matrix list D 
symmetric D[5,5] 



obsl 

obs2 

obs3 

obs4 

obs5 

obsl 

0 





obs2 

10.132127 

0 




obs3 

8.4196199 

7.1867934 

0 



obs4 

3.7134889 

10.290287 

6.5802734 

0 


obs5 

4.1701323 

8.2225301 

6.0448321 

5.4735728 

0 


Figura 9.63 Matriz de distancias euclidianas entre pares de observances. 


Na sequencia, vamos partir para a realiza^ao da analise de agrupamentos propriamente dita. O comando geral 
para a elabora^ao de uma analise de agrupamentos por meio de um esquema hierarquico no Stata e dado por: 

cluster metodo* variaveis*, measure(opgao*) 

em que, alem da substitui^ao dos termos variaveis* e opgao*, conforme discutimos anteriormente, devemos 
substituir o termo metodo* pelo correspondente ao metodo de encadeamento escolhido pelo pesquisador. O 
Quadro 9.4 apresenta os termos do Stata referentes aos metodos estudados na se^ao 9.2.2.1. 


Quadro 9.4 Termos do Stata correspondentes aos metodos de encadeamento 
em esquemas hierarquicos de aglomeranao 


Metodo de Encadeamento 

Termo do Stata 

Unico 

singlelinkage 

Completo 

completelinkage 

Medio 

averagelinkage 


Portanto, para os dados de nosso exemplo e seguindo o criterio adotado ao longo do capitulo (metodo de 
encadeamento unico com distancia euclidiana — termo L2), devemos digitar o seguinte comando: 

cluster singlelinkage matematica fisica quimica, measure(L2) 

Em seguida, podemos digitar o comando cluster list, que faz com que sejam apresentados, de forma resu- 
mida, os criterios utilizados pelo pesquisador para a elabora^ao da analise de agrupamentos hierarquicos. A Figura 
9.64 apresenta os outputs gerados. 


. cluster singlelinkage matematica fisica quimica, measure(L2) 
cluster name: _clus__l 

. cluster list 

_clus_l (type: hierarchical, method: single, dissimilarity: L2) 
vars: _clus_l_id (id variable) 

_clus_l_ord (order variable) 

_clus_l_hgt (height variable) 

other:cmd: cluster singlelinkage matematica fisica quimica, measure(L2) 
varlist: matematica fisica quimica 
range: 0 . 


Figura 9.64 Elabora<;ao da analise de agrupamentos hierarquicos e resumo dos criterios adotados. 
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A partir da Figura 9.64 e da analise do banco de dados, podemos verificar que tres novas variaveis sao criadas, 
referentes a identifica^ao de cada observa^ao ( _clus_l_id ), ao ordenamento das observa^oes quando dos agrupa- 
mentos ( _clus_i_jord ) e as distancias euclidianas utilizadas para que se agrupe nova observa^ao em cada um dos 
estagios de aglomera^ao (_clus_l_hgt ).A Figura 9.65 mostra como fica o banco de dados apos a elabora^ao dessa 
analise de agrupamentos. 



estudante 

matematica 

fisica 

quimica 

_clus_l_id 

_clus_i_ord 

_clus_l_bgt 

1 

Gabriela 

3.7 I 

2.7 ' 

9.1 

1 

; 2 i 

7.1867934 j 

2 

Luiz Felipe 

; 7.8 | 

8.0 

1.5 

2 

; 3 ; 

6.0448321 | 

3 

Patricia 

8.9 | 

1.0 

2.7 

3 

; 1 ; 

3.7134889 , 

4 

Ovidio 

, 7.0 | 

1.0 

9.0 

4 

1 _ 4 

4.1701323 | 

5 

Leonor 

3.4 | 

2.0 

5.0 

5 

1 5 \ 

. i 


Figura 9.65 Banco de dados com as novas variaveis. 


E importante mencionar que o Stata apresenta a variavel _clu_l_hgt com valores defasados em uma linha, o 
que pode tornar a analise um pouco confusa. Nesse sentido, enquanto a distancia de 3,713 refere-se a fusao entre 
as observa^oes Ovidio e Gabriela (primeiro estagio do esquema de aglomera^ao), a distancia de 7,187 corres- 
ponde a fusao entre Luiz Felipe e o cluster ja formado por todas as demais observa^oes (ultimo estagio do es¬ 
quema de aglomera^ao), conforme ja mostravam aTabela 9.12 e a Figura 9.31. 

Logo, para que o pesquisador corrija este problema de defasagem e obtenha o real comportamento das dis¬ 
tancias em cada novo estagio de aglomera^ao, podera digitar a sequencia de comandos a seguir, cujo output se 
encontra na Figura 9.66. Note que uma nova variavel e criada ( dist) e corresponde a corre^ao da defasagem da 
variavel _clu_i_hgt (termo [_n-l]), apresentando o valor de cada distancia euclidiana para que se estabele^a um 
novo agrupamento em cada estagio do esquema de aglomera^ao. 

gen dist = _clus_JL_hgt[_n-l] 

replace dist=0 if dist==. 

sort dist 

list estudante dist 


. gen dist = _clus_l_hgt[_n-l] 
(1 missing value generated) 

. replace dist=0 if dist==. 

(1 real change made) 

. sort dist 

. list estudante dist 



estudante 

dist 

1 . 

Gabriela 

0 

2. 

Ovidio 

3.713489 

3. 

Leonor 

4.170132 

4. 

Patricia 

6.044832 

5. 

Luiz Felipe 

7.186793 


Figura 9.66 Estagios do esquema de aglomera^ao e respectivas distancias euclidianas. 


Elaborada essa etapa, podemos solicitar que o Stata construa o dendrograma, digitando um dos dois equiva- 
lentes comandos: 

cluster dendrogram, labels(estudante) horizontal 


ou 


cluster tree, labels(estudante) horizontal 
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O grafico gerado encontra-se na Figura 9.67. 




Dendrogram for _clus_1 cluster analysis 



V_ J 

Figura 9.67 Dendrograma - Metodo de encadeamento unico e distancias euclidianas no Stata. 

Podemos no tar que o dendrograma construido pela Stata, em termos de distancias euclidianas, e igual ao apre- 
sentado na Figura 9.12, elaborada quando da resolu^ao algebrica da modelagem, porem difere-se daquele construi¬ 
do pelo SPSS (Figura 9.32) por nao considerar medidas rescalonadas. Independentemente desse fato, vamos adotar 
como possivel solu^ao uma quantidade de tres dusters , sendo um formado por Leonor, Ovidio e Gabriela, outro, 
por Patricia, e um terceiro, por Luiz Felipe, j a que os criterios discutidos sobre grandes saltos de distancia nos le- 
vam coerentemente a essa decisao. 

Para que seja gerada uma nova variavel, correspondente a aloca^ao das observances nos tres dusters , devemos 
digitar a sequencia de comandos a seguir. Note que nomeamos essa nova variavel de duster. O output da Figura 
9.68 mostra a aloca^ao das observances nos grupos e e equivalente ao apresentado na Figura 9.36 (SPSS). 

cluster generate cluster = groups(3), name(_clus_l) 

sort _clus_JL_id 

list estudante cluster 



Finalmente, vamos estudar, por meio da analise de variancia de um fator (ANOVA), se os valores de determi- 
nada variavel diferem-se entre os grupos representados pelas categorias da nova variavel qualitativa duster gerada 
no banco de dados, ou seja, se a variabilidade entre os grupos e significativamente superior a variabilidade interna 
a cada um deles, seguindo a logica proposta na se^ao 9.3.1. Para tanto, vamos digitar os seguintes comandos, em 
que sao relacionadas individualmente as tres variaveis metricas ( matematica,fxsica e quimica) com a variavel duster. 
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oneway matematica cluster, tabulate 
oneway fisica cluster, tabulate 
oneway quimica cluster, tabulate 

Os resultados da ANOVA para as tres variaveis estao na Figura 9.69. 


1 . oneway matematica cluster, tabulate 





Summary of nota de 

matematica (0 a 





10) 




cluster 


Mean Std. 

Dev. 

Freq. 



1 


7.8 

0.0 

1 



2 


8.9 

0.0 

1 



3 


4.7 

2.0 

3 



Total 


6.2 

2.5 

5 





Analysis 

of Variance 



Source 


S S 

df 

MS 

F 

Prob > F 

I Between groups 

16.5919981 

2 

8.29599906 

2.08 

0.3248 

1 Within groups 

7.97999966 

2 

3.98999983 



II Total 


24.5719978 

4 

6.14299944 



| . oneway fisica 

cluster, tabulate 





Summary of nota de 

fisica 

(0 a 10) 



cluster 


Mean Std. 

Dev. 

Freq. 



1 


8.0 

0.0 

1 



2 


1.0 

0.0 

1 



3 


1.9 

0.9 

3 



Total 


2.9 

2.9 

5 





Analysis 

of Variance 



Source 


SS 

df 

MS 

F 

Prob > F 

I Between groups 

32.6119999 

2 

16.306 

22.34 

0.0429 

I Within groups 

1.46000008 

2 

.730000038 



| Total 


34.072 

4 

8.51799999 



1 . oneway quimica 

cluster, tabulate 





Summary of nota de 

quimica (0 a 10) 



cluster 


Mean Std. 

Dev. 

Freq. 



1 


1.5 

0.0 

1 



2 


2.7 

0.0 

1 



3 


7.7 

2.3 

3 



Total 


5.5 

3.5 

5 





Analysis 

of Variance 



Source 


SS 

df 

MS 

F 

Prob > F 

1 Between groups 

38.3520014 

2 

19.1760007 

3.51 

0.2219 

I Within groups 

10.9400011 

2 

5.47000053 



1 Total 


49.2920025 

4 

12.3230006 




Figura 9.69 ANOVA paras as variaveis matematica , fisica e quimica. 


Os outputs dessa figura, que apresentam os resultados das variabilidades entre os grupos (Between groups) 
e dentro dos grupos (Within groups), as estatisticas F e os respectivos niveis de significancia (Prob. F, ou Prob 
> F no Stata) para cada variavel, sao iguais aos calculados algebricamente e apresentados naTabela 9.29 (se^ao 
9.22.22) e tambem na Figura 9.42 quando da elabora$ao deste procedimento no SPSS (se$ao 9.3.1). 

Portanto, conforme ja discutimos, podemos verificar que, enquanto para a variavel fisica existe pclo menos um 
cluster que apresenta media estatisticamente diferente dos demais, ao nivel de significancia de 5% (Prob. F - 0,0429 
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< 0,05), as variaveis matematica e quimica nao possuem medias estatisticamente diferentes entre os tres grupos for- 
mados para essa amostra e ao nivel de significance estipulado. 

E importante lembrar que, caso exista uma quantidade maior de variaveis que apresentem Prob. F menor que 
0,05, aquela considerada mais discriminante dos grupos e a com maior estatistica F (ou seja, menor nivel de sig¬ 
nificancia Prob. F ). 

Mesmo podendo finalizar a analise hierarquica neste momento, o pesquisador tern a op^ao de elaborar um 
escalonamento multidimensional, a fim de visualizar as proje^oes das posi^oes relativas das observances em um 
grafico bidimensional, assim como realizado na se^ao 9.3.1. Para tanto, podera digitar o seguinte comando: 

mds matematica fisica quimica , id(estudante) method(modern) 

measure(L2) loss(sstress) config nolog 

Os outputs gerados encontram-se nas Figuras 9.70 e 9.71, sendo que o grafico desta ultima figura correspon- 
de ao apresentado na Figura 9.50. 


. mds matematica fisica quimica, id(estud) method(modern) measure(L2) loss(sstress) 
config nolog 

(transform(identity) assumed) 

Modern multidimensional scaling 

dissimilarity: L2, computed on 3 variables 

Loss criterion: sstress = raw_sstress/norm(distances A 2) 

Transformation: identity (no transformation) 


Number of obs = 
Dimensions = 

Normalization: principal Loss criterion = 

Configuration in 2-dimensional Euclidean space (principal normalization) 


5 

2 

0.1095 


estudante | 

diml 

dim2 

Gabriela 

3.9262 

1.9516 

Ovidio 

3.5524 

-1.9206 

Leonor 

1.2243 

1.8871 

Patricia 

-2.2858 

-3.7417 

LuizFelipe 

-6.4170 

1.8237 


Figura 9.70 Elaborate* do escalonamento multidimensional no Stata. 


MDS configuration 

<o - 


"3- — 


CM - 
CM 

• LuizFelipe •Leonor •Gabriela 

c 

O 

'(A ^ 
c o - 
<D 

E 


b 


CM - 

• Ovidio 

■v - 

• Patricia 

CD - 



i i i i i i r~ 

-8 -6 -4 -2 0 2 4 


Dimension 1 

Modern MDS (loss=sstress; transform=identity) 

Figura 9.71 Grafico com proje^oes das posi^oes relativas das observances. 
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Apresentados os comandos para a realiza^ao da analise de agrupamentos com esquema de aglomera^ao hie¬ 
rarquico no Stata, partiremos para a elabora^ao do esquema de aglomera^ao nao hierarquico k-means no mesmo 
software. 

9.4.2. Elabora^ao do esquema de aglomera^ao nao hierarquico k-means no software Stata 

Para que realizemos o procedimento k-means aos dados do arquivo Vestibular.dta, devemos digitar o seguin- 
te comando: 

cluster kmeans matematica fisica quimica r k(3) name(kmeans) 
measure(L2) start(firstk) 

em que o termo k(3) e input para que o algoritmo seja elaborado com tres agrupamentos. Alem disso, defini- 
mos que uma nova variavel com a aloca^ao das observances nos tres grupos sera gerada no banco de dados com 
o nome kmeans (termo name (kmeans) ), e a medida de distancia utilizada sera a distancia euclidiana (termo L2). 
Alem disso, o termo f irstk especifica que as coordenadas das primeiras k observances da amostra serao utiliza- 
das como centroides dos k clusters (no nosso caso, k = 3), o que corresponde exatamente ao criterio adotado pelo 
SPSS, conforme discutimos na se^ao 9.3.2. 

Na sequencia, podemos digitar o comando cluster list kmeans para que sejam apresentados, de forma 
resumida, os criterios adotados para a elabora^ao do procedimento k-means. 

Os outputs da Figura 9.72 mostram o que e gerado pelo Stata apos a digita^ao dos dois ultimos comandos. 


. cluster kmeans matematica fisica quimica. 

k(3) name (kmeans) measure (L2) start (f irstk) || 

. cluster list kmeans 



kmeans (type: partition, method: kmeans, 
vars: kmeans (group variable) 

dissimilarity: 

L2) 

other: cmd: cluster kmeans matematica 
measure(L2) start(firstk) 

fisica quimica. 

k(3) name (kmeans) 

varlist: matematica fisica quimica 
k: 3 

start: firstk 
range: 0 . 



Figura 9.72 Elabora^ao do procedimento nao hierarquico k-means e resumo dos criterios adotados. 


Os dois comandos seguintes geram, nos outputs do software, duas tabelas referentes, respectivamente, a quantida- 
de de observa^oes em cada um dos tres clusters formados, bem como a aloca^ao de cada observa^ao nesses grupos: 

table kmeans 

list estudante kmeans 

A Figura 9.73 mostra esses outputs. 



Figura 9.73 Quantidade de observances em cada cluster e alocanao das observances. 
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Esses resultados correspondem ao eneontrado quando da resolu^ao algebrica do procedimento k-means 
na se^ao 9.2.2.2.2 (Figura 9.23) e ao obtido quando da elaboragao desse procedimento por meio do SPSS 
na se^ao 9.3.2 (Figuras 9.60 e 9.61). 

Embora tenhamos condi^oes de elaborar uma analise de variancia de um fator para as variaveis originais do 
banco de dados, a partir da nova variavel qualitativa gerada ( kmeans ), optamos por nao realizar esse procedimento 
aqui, visto que ja o fizemos para a variavel duster gerada na se^ao 9.4.1 apos o procedimento hierarquico, que e 
exatamente igual a variavel kmeans neste caso. 

Por outro lado, apresentamos, para efeitos didaticos, o seguinte comando, que permite que as medias de cada 
variavel nos tres dusters sejam geradas, para efeitos de compara^ao: 

tabstat matematica fisica quimica, by(kmeans) 

O output gerado encontra-se na Figura 9.74, e equivale ao apresentado nasTabelas 9.23, 9.24 e 9.25. 


. tabstat matematica fisica quimica, by(kmeans) 

Summary statistics: mean 
by categories of: kmeans 

kmeans 


1 

2 

3 

- + 

Total 


matema~a 

fisica 

quimica 

4.7 

1.9 

7.7 

7.8 

8 

1.5 

8.9 

1 

2.7 

6.16 

2.94 

5.46 


Figura 9.74 Medias por duster e geral das variaveis matematica, fisica e quimica. 


Por fim, o pesquisador pode ainda elaborar um grafico que mostra as inter-rela^oes das variaveis, duas a duas. 
Esse grafico, conhecido por matrix, pode propiciar ao pesquisador melhor entendimento sobre como as varia¬ 
veis se relacionam, oferecendo inclusive sugestoes acerca do posicionamento relativo das observances de cada 
duster nessas inter-rela^oes. Para a constru<;ao do grafico, que se encontra na Figura 9.75, devemos digitar o se¬ 
guinte comando: 

graph matrix matematica fisica quimica, mlabel (kmeans) 


r 





0.0 5.0 10.0 

_i_ i_i_ 






-10.0 



3 

3 




• 

• 



nota de 

2 

1 

2 

• 1 

-8.0 


matematica 

• 

• 



(0 a 10) 



-6.0 



ii 

i i 

-4.0 

10.0- 






2 


2 



• 


• 




nota de 



5.0- 
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1 

1* 

a 10) 

1 
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3 • 1 



• • 


• • 


o.o- 






1 1 



-10.0 


• • 

• • 




1 

i 

notade 



• 

• 

quimica 

-5.0 


3 

3 

(0 a 10) 



2 # 

• 2 




• 

• 







-n n 

i i i i i i-r — 

4.0 6.0 8.0 10.0 0.0 5.0 10.0 





J 


Figura 9.75 lnter-rela<;ao das variaveis e posinao relativa das observances de cada cluster - Grafico matrix. 
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Obviamente, este grafico poderia tambem ter sido construido na se^ao anterior, porem optamos por apre- 
senta-lo apenas ao termino da elabora^ao do procedimento k-means no Stata. Por meio de sua analise, e possivel 
verificarmos, entre outros fatos, que a considera^ao apenas das variaveis matematica e quimica nao e suficiente para 
que sejam afastadas as observa^oes Luiz Felipe e Patricia ( dusters 2 e 3, respectivamente), sendo necessaria a 
considera^ao da variavel /a* para que esses dois estudantes sejam, de fato, alocados em dusters distintos quando 
da forma^ao de tres agrupamentos. Embora seja um tanto quanto obvio quando analisamos os dados na propria 
base, o grafico torna-se bastante util para amostras maiores e com uma quantidade consideravel de variaveis, fato 
que multiplicaria essas inter-rela^oes. 

9.5. CONSIDERA0ES FINAIS 

Muitas sao as situates em que o pesquisador pode desejar agrupar observances (individuos, empresas, mu- 
nicipios, paises, partidos politicos, especies vegetais, entre outros exemplos) a partir de determinadas variaveis 
metricas ou ate mesmo binarias. A cria^ao de agrupamentos homogeneos, a redu^ao estrutural dos dados e a 
verifica^ao da validade de constructos previamente estabelecidos sao algumas das principais razoes que levam o 
pesquisador a optar por trabalhar com a analise de agrupamentos. 

Esse conjunto de tecnicas permite que os mecanismos de tomada de decisao sejam mais bem estruturados e 
justificados a partir do comportamento e da rela^ao de interdependence entre as observances de determinado 
banco de dados. Como a variavel que representa os dusters formados e qualitativa, os outputs da analise de agru¬ 
pamentos podem servir de inputs em outras tecnicas multivariadas, tanto exploratorias, quanto confirmatorias. 

E fortemente recomendavel que o pesquisador justifique, com clareza e transparency, a escolha da medida 
que servira de base para que as observances sejam consideradas mais ou menos similares, bem como as razoes que 
o levam a defininao de esquemas de aglomeranao nao hierarquicos ou hierarquicos e, neste ultimo caso, a deter- 
minanao dos metodos de encadeamento. 

A evolunao da capacidade computacional e o desenvolvimento de novos softwares com recursos bastante 
aprimorados fizeram surgir, nos ultimos anos, novas e esmeradas tecnicas de analise de agrupamentos que utili- 
zam algoritmos cada vez mais requintados e voltados a tomada de decisao nos mais diversos campos do conheci- 
mento, sempre com o objetivo principal de agrupar observances frente a determinados criterios. Neste capitulo, 
entretanto, procuramos oferecer uma visao geral sobre os principais metodos de analise de agrupamentos, consi- 
derados tambem os mais populares. 

Finalmente, ressaltamos que a aplicanao desse importante conjunto de tecnicas deve ser sempre feita por meio 
do correto e consciente uso do software escolhido para a modelagem, com base na teoria subjacente e na expe¬ 
rience e intuinao do pesquisador. 

9.6. EXERCICIOS 

1. O departamento de concessao de bolsas de estudo de uma faculdade deseja investigar a relanao de interde¬ 
pendence entre os estudantes ingressantes em determinado ano letivo, com base apenas em duas variaveis 
metricas (idade, em anos, e renda media familiar, em R$). O objetivo e propor uma quantidade ainda des- 
conhecida de novos programas de concessao de bolsas voltados a grupos homogeneos de alunos. Para tanto, 
foram coletados os dados dos 100 novos estudantes e elaborada uma base, que se encontra nos arquivos Bolsa 
de Estudo.sav e Bolsa de Estudo.dta, com as seguintes variaveis: 


Variavel 

Descri£ao 

estudante 

Variavel string que identifica o estudante ingressante na faculdade. 

idade 

Idade do estudante (anos). 

renda 

Renda media familiar (R$). 


Pede-se: 

a. Elabore uma analise de agrupamentos por meio de um esquema de aglomeranao hierarquico, com me- 
todo de encadeamento completo {furthest neighbor) e distance quadratica euclidiana. Apresente apenas 
a parte final da tabela do esquema de aglomeranao e discuta os resultados. Lembrete: Como as varia¬ 
veis possuem unidades distintas de medida, e necessaria a aplicanao do procedimento de padronizanao 
Zscores para a correta elaboranao da analise de agrupamentos. 
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b. Com base na tabela do item anterior e no dendrograma, pergunta-se: Ha indicios de serem formados 
quantos agrupamentos de estudantes? 

c. E possivel identificar um ou mais estudantes muito discrepantes dos demais em rela^ao as duas variaveis 
em analise? 

d. Se a resposta do item anterior for positiva, elabore novamente a analise de agrupamentos hierarquicos com 
os mesmos criterios, porem, agora, sem o(s) estudante(s) considerado(s) discrepante(s). A partir da analise 
dos novos resultados, podem ser identificados novos agrupamentos? 

e. Discuta como a presen^a de outliers pode prejudicar a interpreta^ao dos resultados em analise de agrupa¬ 
mentos. 

2. A diretoria de marketing de um grupo varejista deseja estudar eventuais discrepancias existentes em suas 
18 lojas espalhadas em tres regionais distribuidas pelo territorio nacional. A dire^ao da companhia, a fim de 
manter e preservar a imagem e a identidade da marca, deseja saber se as lojas sao homogeneas em relagao a 
percepgao dos consumidores sobre atributos como atendimento, sortimento e organiza^ao. Dessa forma, foi 
inicialmente elaborada uma pesquisa com amostras de clientes em cada loja, a fim de que fossem coletados 
dados referentes a esses atributos, definidos com base na nota media obtida (0 a 100) em cada estabelecimento 
comercial. 

Na sequencia, foi elaborado o banco de dados de interesse, que contem as seguintes variaveis: 


Variavel 

Descrifao 

loja 

Variavel string que varia de 01 a 18 e que identifica o estabelecimento comercial (loja). 

regional 

Variavel string que identifica cada regional (Regional 1 a Regional 3). 

atendimento 

Avalianao media dos consumidores sobre o atendimento (nota de 0 a 100). 

sortimento 

Avaliagao media dos consumidores sobre o sortimento (nota de 0 a 100). 

organizagao 

Avaliagao media dos consumidores sobre a organiza^ao da loja (nota de 0 a 100). 


Os dados encontram-se nos arquivos Regional Varejista.sav e Regional Varejista.dta. Pede-se: 

a. Elabore uma analise de agrupamentos por meio de um esquema de aglomera^ao hierarquico, com metodo 
de encadeamento unico e distancia euclidiana. Apresente a matriz de distancias entre cada par de obser¬ 
vances. Lembrete: Como as variaveis possuem a mesma unidade de medida, nao e necessaria a aplica^ao 
do procedimento de padroniza^ao Zscores. 

b. Apresente e discuta a tabela do esquema de aglomera^ao. 

c. Com base na tabela do item anterior e no dendrograma, pergunta-se: Ha indicios de serem formados 
quantos agrupamentos de lojas? 

d. Elabore um escalonamento multidimensional e, na sequencia, apresente e discuta o grafico bidimensional 
gerado com as posi^oes relativas das lojas. 

e. Elabore uma analise de agrupamentos por meio do procedimento k-means, com a quantidade de agrupa¬ 
mentos sugerida no item (c), e interprete, considerando o nivel de significance de 5%, a analise de varian¬ 
ce de um fator para cada variavel considerada no estudo. Qual variavel mais contribui para a formafao de 
pelo menos um dos clusters formados, ou seja, qual delas e a mais discriminante dos grupos? 

f. Existe correspondence entre as alocagoes das observances nos grupos obtidas pelos metodos hierarquico 
e nao hierarquico? 

g. E possivel identificar associagao entre alguma regional e determinado grupo discrepante de lojas, o que 
poderia justificar a preocupa^ao da diretoria em relagao a imagem e a identidade da marca? Caso a resposta 
seja afirmativa, elabore novamente a analise de agrupamentos hierarquicos com os mesmos criterios, po¬ 
rem, agora, sem esse grupo discrepante de lojas. A partir da analise dos novos resultados, pode-se visualizar, 
de forma mais nitida, as diferen^as entre as demais lojas? 

3. Um analista do mercado financeiro decide elaborar uma pesquisa com presidentes e diretores de grandes em- 
presas atuantes nos setores de saude, educa^ao e transporte, a fim de investigar o modo como sao realizados 
as operates das companhias e os mecanismos que regem os processos decisorios. Para tanto, elaborou um 
questionario com 50 perguntas, cujas respostas sao apenas dicotomicas, ou binarias. Apos a aplica^ao do ques- 
tionario, obteve um retorno de 35 empresas e, a partir de entao, estruturou o banco de dados, presente nos 
arquivos Pesquisa Binaria.sav e Pesquisa Binaria.dta. De maneira generica, as variaveis sao: 
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Variavel 

Descri^ao 

ql a q50 

50 variaveis dummy que se referem ao modo como sao realizados as operates 
e os processos de tomada de decisao nas empresas. 

setor 

Setor de atua^ao da empresa (criterio Bovespa). 


O principal objetivo do analista e verificar se empresas atuantes no mesmo setor apresentam similarida- 
des em rela^ao ao modo como sao realizados as operates e os processos de tomada de decisao, ao menos na 
perspectiva dos proprios gestores. Para tanto, apos a coleta dos dados, pode ser elaborada uma analise de agru¬ 
pamentos. Pede-se: 

a. Com base na analise de agrupamentos hierarquicos elaborada com metodo de encadeamento medio ( be¬ 
tween groups) e medida de semelhan^a (similaridade) de emparelhamento simples para variaveis binarias, 
analise o esquema de aglomera^ao gerado. 

b. Interprete o dendrograma. 

c. Verifique se existe correspondence entre as aloca^oes das empresas nos clusters e os respectivos setores de 
atua^ao, ou, em outras palavras, se as empresas atuantes no mesmo setor apresentam similaridades em rela- 
£ao ao modo como sao realizados as operates e os processos de tomada de decisao. 

4. O proprietario de uma empresa hortifruti decide monitorar as vendas de seus produtos ao longo de 16 se- 
manas (4 meses). O objetivo principal e verificar se existe recorrencia do comportamento de vendas de tres 
principais produtos (banana, laranja e ma^a) apos certo periodo, em fun^ao das oscila^oes semanais de pregos 
dos produtores, repassados aos consumidores e que podem afetar as vendas. Os dados encontram-se nos arqui- 
vos Hortifruti.sav e Hortifruti.dta, que apresentam as seguintes variaveis: 


Variavel 

Descr^ao 

semana 

Variavel string que varia de 1 a 16 e identifica a semana em que as vendas 
foram monitoradas. 

semana_mes 

Variavel string que varia de 1 a 4 e identifica a semana de cada um dos meses. 

banana 

Quantidade de bananas vendidas na semana (un.). 

laranja 

Quantidade de laranjas vendidas na semana (un.). 

maga 

Quantidade de ma^as vendidas na semana (un.). 


Pede-se: 

a. Elabore uma analise de agrupamentos por meio de um esquema de aglomera^ao hierarquico, com me¬ 
todo de encadeamento unico (nearest neighbor) e medida de correlagao de Pearson. Apresente a matriz de 
medidas de similaridade (correla^ao de Pearson) entre cada linha do banco de dados (periodos semanais). 
Lembrete: Como as variaveis possuem a mesma unidade de medida, nao e necessaria a aplica^ao do pro- 
cedimento de padroniza^ao Zscores. 

b. Apresente e discuta a tabela do esquema de aglomera^ao. 

c. Com base na tabela do item anterior e no dendrograma, pergunta-se: Ha indicios de recorrencia do com¬ 
portamento conjunto de vendas de banana, laranja e ma^a em determinadas semanas? 
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APlNDICE 


Detecgao de outliers multivariados 


Embora a detec^ao de outliers seja extremamente importante quando da aplica^ao de praticamente todas as 
tecnicas em analise multivariada de dados, optamos por inserir este apendice no presente capitulo em razao de 
a analise de agrupamentos representar o primeiro conjunto estudado de tecnicas exploratorias, cujos outputs 
podem ser utilizados como inputs de diversas outras tecnicas, bem como pelo fato de observa^oes muito dis- 
crepantes poderem interferir consideravelmente na forma^ao dos clusters. 

Barnett e Lewis (1994) citam quase 1.000 artigos provenientes da literatura sobre outliers ; porem, optamos 
por apresentar um algoritmo bastante efetivo e computacionalmente simples e rapido para a detec^ao de outliers 
multivariados. 


A. Breve Apresenta^ao do Algoritmo Blocked Adaptative Computationally Efficient Outlier 
Nominators 

Billor, Hadi e Velleman (2000), em seminal trabalho, apresentam um interessante algoritmo que possui a fi- 
nalidade de detectar outliers multivariados, denominado Blocked Adaptative Computationally Efficient Outlier 
Nominators , ou simplesmente BACON. Esse algoritmo, explicado de forma clara e didatica por Weber (2012), e 
definido com base na elabora^ao de alguns passos, descritos brevemente a seguir: 


1. A partir de um banco de dados com n observagoes e j (j = 1,..., k) variaveis X, sendo cada observa^ao identi- 
ficada por i (i = 1,...,«), a distancia entre uma observa^ao i, que possui um vetor com dimensao k x* = (pc n , x i2 , 
..., x ik ), e a media geral dos valores de toda a amostra (grupo G), que tambem possui um vetor com dimensao k 
x (5c u x 2 , ...,3c fe ), e dada pela seguinte expressao, conhecida por distancia de Mahalanobis: 


d iG =V( X « _X )'' S 1- ( x i _x ) (9.29) 

em que S representa a matriz de covariancias das n observa^oes. Portanto, o passo inicial do algoritmo consiste 
em identificar m (m > k) observa^oes homogeneas (grupo inicial M) que apresentam as menores distancias de 
Mahalanobis com rela^ao a amostra toda. 

E importante mencionar que a medida de dissimilaridade conhecida por distancia de Mahalanobis, nao abor- 
dada ao longo do capitulo, e adotada pelos autores supramencionados por possuir a propriedade de nao ser sus- 
cetivel a existencia de diferentes unidades de medida das variaveis. 


2. Na sequencia, sao calculadas as distancias de Mahalanobis entre cada observa^ao i e a media dos valores das m 
observa^oes pertencentes ao grupo M, que tambem possui um vetor com dimensao k x M (x M1 , x m ,..., x M ^), de 
modo que: 

d iM= V( x ; )’ • S M • ( x i -) (9.30) 


em que S M representa a matriz de covariancias das m observa^oes. 
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3. Todas as observances com distancias de Mahalanobis menores que determinado limiar sao adicionadas ao grupo 
M de observances. Esse limiar e definido como um percentil corrigido da distribuinao X 2 (85% no padrao do Stata). 

Os passos 2 e 3 devem ser reaplicados ate que nao existam mais modificanoes no grupo M, que possuira apenas 
observances consideradas nao outliers. Portanto, as excluidas do grupo serao consideradas outliers multivariados. 

Weber (2012) codifica o algoritmo proposto no trabalho de Billor, Hadi e Velleman (2000) no Stata, criando 
o comando bacon. Na sequencia, apresentamos um exemplo em que e utilizado esse comando, cuja principal 
vantagem e ser computacionalmente muito rapido, mesmo quando aplicado a grandes bancos de dados. 


B. Exemplo: O Comando bacon no Stata 

Antes da elaboranao especifica deste procedimento no Stata, devemos instalar o comando bacon, digitando 
findit bacon e clicando no link stQ197 from http://www.stata-journal.com/software/sjl0-3 . Na se¬ 
quencia, devemos clicar em click here to install. Por fim, retornando a tela de comandos do Stata, pode- 
mos digitar ssc install moremata e mata: mata mlib index. Feito isso, temos condinoes de aplicar o co¬ 
mando bacon. 

Para o uso do comando, utilizaremos o arquivo Bacon.dta, que apresenta dados de 20.000 engenheiros sobre 
renda media familiar (R$), idade (anos) e tempo de formado (anos). Inicialmente, podemos digitar o comando 
desc, que possibilita a analise das caracteristicas do banco de dados. A Figura 9.76 apresenta esse primeiro output. 


. desc 





obs: 

20,000 




vars: 

3 




size: 

200,000 

(99.6% of 

memory free) 



storage 

display 

value 


variable name 

type 

format 

label 

variable label 

renda 

float 

%9.0g 


renda media familiar (R$) 

idade 

byte 

%8.0g 


idade (anos) 

tformado 

byte 

%8.0g 


tempo de formado (anos) 

| Sorted by: if 


Figura 9.76 Descri^ao do banco de dados Bacon.dta. 


Na sequencia, podemos digitar o seguinte comando, que identifica, com base no algoritmo apresentado, as 
observances consideradas outliers multivariados: 

bacon renda idade tformado, generate(outbacon) 

em que o termo generate (outbacon) faz com que seja gerada uma nova variavel dummy no banco de dados, 
denominada outbacon, que apresenta valores iguais a 0 para observances nao consideradas outliers, e valores iguais 
a 1 para as consideradas como tal. Esse output encontra-se na Figura 9.77. 


. bacon renda idade tformado, generate(outbacon) 

Total number of observations: 20000 

BACON outliers (p = 0.15): 4 

_ Non-outliers remaining: _ 19996 _ 

Figura 9.77 Aplicanao do comando bacon no Stata. 

Por meio dessa figura, e possivel verificarmos que quatro observances sao classificadas como outliers multiva¬ 
riados. Alem disso, o Stata considera 85% o padrao de percentil da distribuinao X 2 , utilizado como limiar de se- 
paranao entre observances tidas como outliers e nao outliers, conforme discutido anteriormente e destacado por 
Weber (2012). Essa e a razao de, nos outputs, aparecer o termo BACON outliers (p = 0.15). Esse valor podera 
ser alterado em funnao de algum criterio estabelecido pelo pesquisador, porem, ressalta-se que o padrao percen¬ 
tile (0.15) e bastante adequado para a obtennao de respostas consistentes. 

A partir do comando a seguir, que gera o output da Figura 9.78, podemos investigar quais as observances clas¬ 
sificadas como outliers: 

list if outbacon == 1 
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. list if outbacon==l 



renda 

idade 

tformado 

outbacon 

1935. 

30869.93 

30 

15 

1 

2468. 

34773.54 

42 

17 

1 

14128. 

41191.15 

50 

21 

1 

16833. 

32924.19 

31 

16 

1 


Figura 9.78 Observances classificadas como outliers multivariados. 

Mesmo que estejamos trabalhando com tres variaveis, podemos elaborar graficos de dispersao bidimensionais, 
que permitem identificar as posi£oes das observances consideradas outliers em rela^ao as demais. Para tanto, vamos 
digitar os seguintes comandos, que geram os referidos graficos para cada par de variaveis: 

scatter renda idade, ml(outbacon) note("0 = nao outlier, 1 = outlier") 
scatter renda tformado, ml(outbacon) note("0 = nao outlier, 1 = outlier") 

scatter idade tformado, ml(outbacon) note("0 = nao outlier, 1 = outlier") 

Os tres graficos encontram-se nas Figuras 9.79, 9.80 e 9.81. 



Figura 9.79 Variaveis renda e idade - Posinao relativa das observances. 



Figura 9.80 Variaveis renda e tformado - Posinao relativa das observances. 
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Figura 9.81 Variaveis idode e tformodo - Posi^ao relativa das observances. 


Embora os outliers tenham sido identificados, e importante mencionar que a decisao sobre o que fazer com 
essas observances pertence totalmente ao pesquisador, que devera toma-la em funnao de sens objetivos de pes- 
quisa. Conforme discutimos ao longo do capitulo, a exclusao desses outliers da base pode representar uma opnao a 
ser considerada. Porem, o estudo sobre as razoes que os tornaram multivariadamente discrepantes tambem pode 
gerar muitos frutos interessantes de pesquisa. 
























Analise Fatorial por Componentes Principals 


0 amor e a verdade estao too unidos entre si que e proticomente impossfvel separd-los. 

Sao como duos faces da mesma moeda. 

Mahatma Gandhi 


Ao final deste capftulo, voce tera condigoes de: 

• Estabelecer as circunstancias a partir das quais a tecnica de analise fatorial por componentes principals 
pode ser utilizada. 

• Entender o conceito de fator. 

• Saber avaliar a adequagao global da analise fatorial por meio da estatistica KMO e do teste de esfericidade 
de Bartlett. 

• Compreender os conceitos de autovalores e autovetores em matrizes de correlagao de Pearson. 

• Saber calcular e interpretar os scores fatoriais e, a partir dos mesmos, definir fatores. 

• Determinar e interpretar cargas fatoriais e comunalidades. 

• Construir loading plots. 

• Entender os conceitos referentes a rotagao de fatores e elaborar a rotagao ortogonal Varimax. 

• Construir rankings de desempenho a partir do comportamento conjunto de variaveis. 

• Elaborar a tecnica de analise fatorial por componentes principals de maneira algebrica e por meio do IBM 
SPSS Statistics Software® e do Stata Statistical Software® e interpretar seus resultados. 


10.1. INTRODUgAO 

As tecnicas exploratorias de analise fatorial sao muito uteis quando ha a intengao de se trabalhar com 
variaveis que apresentem, entre si, coeficientes de correlagao relativamente elevados e se deseja estabelecer 
novas variaveis que captem o comportamento conjunto das variaveis originais. Cada uma dessas novas variaveis e 
chamada de fator, que pode ser entendido como o agrupamento de variaveis a partir de criterios estabeleci- 
dos. Nesse sentido, a analise fatorial e uma tecnica multivariada que procura identificar uma quantidade relativa¬ 
mente pequena de fatores que representam o comportamento conjunto de variaveis originais interdependentes. 
Assim, enquanto a analise de agrupamentos estudada no capitulo anterior faz uso de medidas de distancia ou de 
semelhanga para agrupar observagoes e formar clusters , a analise fatorial utiliza coeficientes de correlagao para 
agrupar variaveis e gerar fatores. 

Dentre os metodos para determinagao de fatores, o conhecido como componentes principais e, sem 
duvida, o mais utilizado em analise fatorial, ja que se baseia no pressuposto de que podem ser extraidos fato¬ 
res nao correlacionados a partir de combinagoes lineares das variaveis originais. A analise fatorial por 
componentes principais permite, portanto, que, a partir de um conjunto de variaveis originais correlacionadas 
entre si, seja determinado outro conjunto de variaveis (fatores) resultantes da combinagao linear do primeiro 
conjunto. 

Embora na literatura, como sabemos, aparega com certa frequencia o termo analise fatorial confirmato- 
ria, a analise fatorial e, em essencia, uma tecnica multivariada exploratoria, ou de interdependencia, visto 
que nao possui carater preditivo para outras observagoes nao presentes inicialmente na amostra, e a inclusao de 
novas observagoes no banco de dados torna necessaria a reaplicagao da tecnica, para que sejam gerados novos 
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fatores mais precisos e atualizados. Conforme discute Reis (2001), a analise fatorial pode ser utilizada tanto com 
o objetivo exploratorio de redu^ao da dimensao dos dados, com foco na cria^ao de fatores a partir de variaveis 
originais, quanto com o objetivo de se confirmar uma hipotese inicial de que os dados poderao ser reduzidos a 
determinado fator, ou determinada dimensao, previamente estabelecido. Independentemente da natureza do ob¬ 
jetivo, a analise fatorial continuara exploratoria. Caso um pesquisador tenha a inten^ao de utilizar uma tecnica 
para, de fato, confirmar as relates encontradas na analise fatorial, podera fazer uso, por exemplo, de modelos 
de equapoes estruturais. 

A analise fatorial por componentes principals apresenta quatro objetivos principals: (1) identifica^ao de corre¬ 
lates entre variaveis originais para a cria^ao de fatores que representam a combina^ao linear daquelas variaveis 
(redupao estrutural); (2) verifica^ao da validade de constructos previamente estabelecidos, tendo em vista a 
aloca^ao das variaveis originais em cada fator; (3) elaborapao de rankings por meio da cria^ao de indicadores 
de desempenho a partir dos fatores; e (4) extra^ao de fatores ortogonais para posterior uso em tecnicas multiva- 
riadas confirmatorias que necessitam de ausencia de multicolinearidade. 

Imagine que um pesquisador tenha interesse em estudar a rela^ao de interdependence entre diversas variaveis 
quantitativas que traduzem o comportamento socioeconomico dos municipios de uma na^ao. Nessa situa^ao, 
podem ser determinados fatores que eventualmente consigam explicar o comportamento das variaveis originais, 
e, nesse sentido, a analise fatorial e utilizada para a redu^ao estrutural dos dados e para posterior elabora^ao de 
um indicador socioeconomico que capte o comportamento conjunto dessas variaveis. A partir desse indicador, 
pode inclusive ser criado um ranking de desempenho dos municipios, e os proprios fatores podem ser utilizados 
em uma eventual analise de agrupamentos. 

Em outra situa^ao, fatores extraidos a partir de variaveis originais podem ser utilizados como variaveis ex- 
plicativas de outra variavel (dependente), inicialmente nao considerada na analise. Por exemplo, fatores obtidos 
a partir do comportamento conjunto das notas escolares em determinadas disciplinas do ultimo ano do ensino 
medio podem ser utilizados como variaveis explicativas da classifica^ao geral dos estudantes no vestibular ou do 
fato de o estudante ter ou nao sido aprovado. Note, nessas situates, que os fatores (ortogonais entre si) sao utili¬ 
zados, em vez das proprias variaveis originais, como variaveis explicativas de determinado fenomeno em mode¬ 
los multivariados confirmatorios, como regressao multipla ou regressao logistica, a fim de que sejam eliminados 
eventuais problemas de multicolinearidade. E importante ressaltar, entretanto, que esse procedimento somente faz 
sentido quando ha o intuito de elaborar um diagnostico acerca do comportamento da variavel dependente, sem 
a inten^ao de previsoes para outras observa^oes nao presentes inicialmente na amostra. Como novas observa^oes 
nao apresentam os correspondentes valores dos fatores gerados, a obten^ao desses valores somente e possivel ao 
se incluirem tais observa^oes em nova analise fatorial. 

Em uma terceira situa^ao, imagine que uma empresa varejista esteja interessada em avaliar o nivel de satisfa- 
$ao dos clientes por meio da aplica^ao de um questionario em que as perguntas tenham sido previamente clas- 
sificadas em determinados grupos. Por exemplo, as perguntas A, B e C foram classificadas no grupo qualidade do 
atendimento , as perguntas D e E, no grupo percepgdo positiva de pre$os , e as perguntas F, G, H e I, no grupo variedade 
do sortimento de produtos. Apos a aplica^ao do questionario em uma amostra significativa de consumidores, em que 
essas nove variaveis sao levantadas por meio da atribui^ao de notas que variam de 0 a 10, a empresa varejista deci¬ 
de elaborar uma analise fatorial por componentes principals para verificar se, de fato, a combina^ao das variaveis 
reflete o constructo previamente estabelecido. Se isso ocorrer, a analise fatorial tera sido utilizada para validar o 
constructo, apresentando objetivo de natureza confirmatoria. 

Podemos perceber, em todas essas situates, que as variaveis originais a partir das quais serao extraidos fa¬ 
tores sao quantitativas, visto que a analise fatorial parte do estudo do comportamento dos coeficientes de cor- 
rela^ao de Pearson entre as variaveis. E comum, entretanto, que pesquisadores fa^am uso do incorreto pro¬ 
cedimento de pondera 9 ao arbitraria em variaveis qualitativas, como variaveis em escala Likert, para, a 
partir de entao, ser aplicada uma analise fatorial. Trata-se de um erro grave! Existem tecnicas exploratorias 
destinadas exclusivamente ao estudo do comportamento de variaveis qualitativas como, por exemplo, a analise 
de correspondence a ser estudada no proximo capitulo, e a analise fatorial definitivamente nao se apresenta 
para tal finalidade! 

Em um contexto historico, o desenvolvimento da analise fatorial e devido, em parte, aos trabalhos pioneiros 
de Pearson (1896) e Spearman (1904). Enquanto Karl Pearson desenvolveu um tratamento matematico rigoroso 
acerca do que se convencionou chamar de correla^ao, Charles Edward Spearman publicou, no inicio do seculo 
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XX, um seminal trabalho em que eram avaliadas as inter-rela^oes entre os desempenhos de estudantes em diver- 
sas disciplinas, como Frances, Ingles, Matematica e Musica. Como as notas dessas disciplinas apresentavam forte 
correla^ao, Spearman propos que scores oriundos de testes aparentemente incompativeis compartilhavam um fa- 
tor geral unico, e estudantes que apresentavam boas notas possuiam algum componente psicologico ou de in- 
teligencia mais desenvolvido. De modo geral, Spearman destacou-se profundamente pela aplica^ao de metodos 
matematicos e estudos de correlagao para a analise da mente humana. 

Decadas mais tarde, o estatistico matematico e influente teorico economico Harold Hotelling convencionou 
chamar, em 1933, de Principal Component Analysis a analise que determina componentes a partir da maximiza^ao 
da variancia de dados originais. Ainda na primeira metade do seculo XX, o psicologo Louis Leon Thurstone, a 
partir da investiga^ao sobre as ideias de Spearman e com base na aplica^ao de determinados testes psicologicos 
cujos resultados foram submetidos a analise fatorial, identificou sete aptidoes primarias das pessoas: aptidoes es- 
paciais e visuais, compreensao verbal, fluidez verbal, rapidez perceptual, aptidao numerica, raciocinio e memoria. 
Na psicologia, o termo fatores mentais e inclusive destinado a variaveis que apresentam maior influencia sobre 
determinado comportamento. 

Atualmente, a analise fatorial e utilizada em diversos campos do conhecimento, como marketing, economia, 
estrategia, finan^as, contabilidade, atuaria, engenharia, logistica, psicologia, medicina, ecologia e bioestatistica, en¬ 
tre outros. 

A analise fatorial por componentes principals deve ser definida com base na teoria subjacente e na experien¬ 
ce do pesquisador, de modo que seja possivel aplicar a tecnica de forma correta e analisar os resultados obtidos. 

Neste capitulo, trataremos da tecnica de analise fatorial por componentes principals, com os seguintes obje- 
tivos: (1) introduzir os conceitos; (2) apresentar, de maneira algebrica e pratica, o passo a passo da modelagem; 
(3) interpretar os resultados obtidos; e (4) propiciar a aplicagao da tecnica em SPSS e Stata. Seguindo a logica 
proposta no livro, sera inicialmente elaborada a solu^ao algebrica de um exemplo vinculada a apresenta^ao dos 
conceitos. Somente apos a introdu^ao dos conceitos, serao apresentados os procedimentos para a elabora^ao da 
tecnica em SPSS e Stata. 

10.2. anAlise fatorial por componentes principais 

Muitos sao os procedimentos inerentes a analise fatorial, com diferentes metodos para a determina^ao (extra- 
950) de fatores a partir da matriz de correlates de Pearson. O metodo mais utilizado, adotado para a extra^ao 
dos fatores neste capitulo, e conhecido por componentes principais, em que a consequente redu^ao estrutural e 
tambem chamada de transforma9ao de Karhunen-Loeve. 

Nas se^oes seguintes, apresentaremos o desenvolvimento teorico da tecnica, bem como a elabora^ao de um 
exemplo pratico. Enquanto nas se^oes 10.2.1 a 10.2.5 serao apresentados os principais conceitos, a se^ao 10.2.6 
e destinada a resolu^ao de um exemplo pratico por meio de solu^ao algebrica, a partir de um banco de dados. 

10.2.1. Correla^ao linear de Pearson e conceito de fator 

Imaginemos um banco de dados que apresente n observa^oes e, para cada observa^ao i (i = 1,..., n), valores 
correspondentes a cada uma das k variaveis metricas X, conforme mostra aTabela 10.1. 

Tabela 10.1 Modelo geral de um banco de dados para elabora^ao de analise fatorial. 


Observafao i 

X u 

X 2i 

... 

Xu 

1 

X n 

X 21 


X ki 

2 

X 12 

X 22 


X„2 

3 

X 13 

X 2i 


X ki 


: 

: 



n 


X 2n 


X k „ 


A partir do banco de dados, e dada a inten^ao de que sejam extraidos fatores a partir das k variaveis X, deve- 
mos definir a matriz de correla9oes p que apresenta os valores da correla9ao linear de Pearson entre cada 
par de variaveis, conforme mostra a expressao (10.1). 
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1 P\2 '' ' Pik 

P 21 ^ * * * Pik 

KPk 1 P^2 *** ^ > 


( 10 . 1 ) 


A matriz de correlates p e simetrica em rela^ao a diagonal principal que, obviamente, apresenta valores 
iguais a 1. Para, por exemplo, as variaveis X t e X 2 , a correla^ao de Pearson p 12 pode ser calculada com base na 
expressao (10.2). 

n 

^(Xu-XJ-iXv-XJ 

Pn= j -=- p ... 

V -=1 V 1=1 (10.2) 

em que X t e X 2 representam, respectivamente, as medias das variaveis X x e X 2 . 

Logo, como a correla^ao de Pearson e uma medida do grau da rela^ao linear entre duas variaveis metricas, 
podendo variar entre —lei, um valor mais proximo de um desses extremos indica a existencia de rela^ao linear 
entre as duas variaveis em analise, que, dessa forma, podem contribuir significativamente para a extra^ao de um 
unico fator. Por outro lado, um valor da correla^ao de Pearson muito proximo de 0 indica que a rela^ao linear 
entre as duas variaveis e praticamente inexistente; portanto, diferentes fatores podem ser extraidos. 

Imaginemos uma situa^ao hipotetica em que determinado banco de dados apresente apenas tres variaveis (k 
— 3). Um grafico de dispersao tridimensional pode ser elaborado a partir dos valores de cada variavel para cada 
observa^ao. O grafico encontra-se, de maneira exemplificada, na Figura 10.1. 



Figura 10.1 Grafico de dispersao tridimensional para situagao hipotetica com tres variaveis. 

Com base apenas na analise visual do grafico da Figura 10.1, e dificil avaliar o comportamento das relates 
lineares entre cada par de variaveis. Nesse sentido, a Figura 10.2 apresenta a proje^ao dos pontos correspondentes 
a cada observa^ao em cada um dos pianos formados pelos pares de variaveis, com destaque, em tracejado, para o 
ajuste que representa a rela^ao linear entre as respectivas variaveis. 

Enquanto a Figura 10.2a mostra que existe consideravel rela^ao linear entre as variaveis X x e X 2 (correla^ao 
de Pearson muito alta), as Figuras 10.2b e 10.2c explicitam que nao existe rela^ao linear entre X 3 e essas variaveis. 
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A Figura 10.3 mostra essas proje^oes no grafico tridimensional, com os respectivos ajustes lineares em cada pia¬ 
no (retas tracejadas). 

Dessa forma, nesse exemplo hipotetico, enquanto as variaveis X t e X 2 poderao ser representadas de ma- 
neira bastante significativa por um unico fator, que chamaremos de F l9 a variavel X 3 podera ser representa- 
da por outro fator, F 2 , ortogonal aF t .A Figura 10.4 apresenta, de maneira tridimensional, a extra^ao desses 
novos fatores. 

Logo, os fatores podem ser entendidos como representa^oes de dimensoes latentes que explicam o corn- 
portamento de variaveis originais. 


a) Relagao entre e X 2 \ Correlapao de Pearson Positiva e Muito Alta 



V_ ) 


Figura 10.2 Proje$ao dos pontos em cada piano formado por determlnado par de variaveis. 
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Figura 10.3 Proje<;ao dos pontos em grafico tridimensional com ajustes lineares por piano. 



Apresentados esses conceitos iniciais, e importante salientar que, em muitos casos, o pesquisador pode optar 
por nao extrair um fator representado de maneira consideravel por apenas uma variavel (neste caso, o fator F 2 ), e 
o que vai definir a extra^ao de cada um dos fatores e o calculo dos autovalores da matriz de correlates p, con- 
forme sera estudado na se^ao 10.2.3. Antes disso, entretanto, sera necessario que se verifique a adequa^ao glo¬ 
bal da analise fatorial, a ser discutida na proxima se^ao. 

10.2.2. Adequate global da analise fatorial: estatistica Kaiser-Meyer-Olkin (KMO) e teste de 
esfericidade de Bartlett 

Uma adequada extra^ao de fatores a partir de variaveis originais requer que a matriz de correlates P apre- 
sente valores relativamente elevados e estatisticamente significantes. Conforme discutem Hair et al (2009), em- 
bora a inspe^ao visual da matriz de correlates P nao revele se a extra^ao de fatores sera, de fato, adequada, uma 
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quantidade substancial de valores inferiores a 0,30 representa um preliminar indicio de que a analise fatorial po- 
dera ser inapropriada. 

Para que seja verificada a adequa^ao global propriamente dita da extra^ao dos fatores, devemos recorrer a es¬ 
tatistica Kaiser-Meyer-Olkin (KMO) e ao teste de esfericidade de Bartlett. 

A estatistica KMO fornece a propor^ao de variancia considerada comum a todas as variaveis na amostra em 
analise, ou seja, que pode ser atribuida a existencia de um fator comum. Essa estatistica varia de 0 a 1, e, enquanto 
valores mais proximos de 1 indicam que as variaveis compartilham um percentual de variancia bastante elevado 
(correlates de Pearson altas), valores mais proximos de 0 sao decorrentes de correlates de Pearson baixas entre 
as variaveis, o que pode indicar que a analise fatorial sera inadequada. A estatistica KMO, apresentada inicialmente 
por Kaiser (1970), pode ser calculada por meio da expressao (10.3). 

k k 

LLA 


KMO = 


1=1 c =1 


k k 


k k 


ISpMS a 


1=1 C=1 


1=1 C=1 


J^C 


(10.3) 


em que Z e c representam, respectivamente, as linhas e colunas da matriz de correlates p, e os termos (p repre- 
sentam os coeficientes de correla^ao parcial entre duas variaveis. Enquanto os coeficientes de correla^ao de 
Pearson p sao tambem chamados de coeficientes de correla^ao de ordem zero, os coeficientes de correla^ao 
parcial (p sao tambem conhecidos por coeficientes de correla^ao de ordem superior. Para tres variaveis, sao 
tambem chamados de coeficientes de correla9ao de primeira ordem, para quatro variaveis, de coeficientes 
de correla9ao de segunda ordem e assim sucessivamente. 

Imaginemos outra situa£ao hipotetica em que determinado banco de dados apresenta novamente tres varia¬ 
veis (k = 3 ).E possivel que p 12 reflita, de fato, o grau de rela9ao linear entre X t e X 2 , estando a varia- 
vel X 3 relacionada com as outras duas? Nessa situa^o, p 12 pode nao representar o verdadeiro grau de rela£ao 
linear entre X x e X 2 na presen 9 a de X 3 , o que pode fornecer uma falsa impressao sobre a natureza da rela^o entre 
as duas primeiras. E nesse sentido que os coeficientes de correlagao parcial podem contribuir com a analise, visto 
que, segundo Gujarati e Porter (2008), sao utilizados quando se deseja conhecer a correla^o entre duas variaveis, 
controlando-se ou desconsiderando-se os efeitos de outras variaveis presentes na base de dados. Para nossa situa- 
9 ao hipotetica, e o coeficiente de correla^o independente da influencia, se e que ela existe, de X 3 sobre X x e X 2 . 

Dessa maneira, para tres variaveis X t , X 2 e X 3 , podemos definir da seguinte forma os coeficientes de correla- 
9 ao de primeira ordem: 


(f) __ P12 P13P23 

V(l-P?3) (I-P23) 

em que (p 12j3 representa a correla^o entre X x e X 2 , mantendo-se X 3 constante, 

(f) _ Pl2>~P\2 Pl2> 

V(i-Pi 2 )-( 1 -/ 4 ) 


(10.4) 


(10.5) 


em que <p 13 2 representa a correla 9 ao entre X x e X 3 , mantendo-se X 2 constante, e 

n _ P23 Pl 2 Pl 3 

V(l-Pi2) (l-Pn) 


( 10 . 6 ) 


em que (p 22>#1 representa a correla 9 ao entre X 2 e X 3 , mantendo-se X x constante. 

De maneira geral, um coeficiente de correla^o de primeira ordem pode ser obtido por meio da seguinte 
expressao: 

_ Pab Pac * Pbc 

t ab,c — I ~ " 

^(l-Pac)'(l-Pbc) ( 10 . 7 ) 

em que a,bec podem assumir valores 1, 2 ou 3, correspondentes as tres variaveis em analise. 
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Ja, para uma situa^ao em que estejam presentes na analise quatro variaveis, a expressao geral de determinado 
coeficiente de correla^ao parcial (coeficiente de correla^ao de segunda ordem) e dada por: 


Vabjd ~ 


( Pab£ Vad/Vbd'C 


( 10 . 8 ) 

em que (p abcd representa a correla^ao entre X a e X h mantendo-se X c e X d constantes, sabendo-se que a, b, c e d 
podem assumir valores 1,2, 3 ou 4, correspondentes as quatro variaveis em analise. 

A obten^ao de coeficientes de correla^ao de ordens superiores, em que sao consideradas na analise cinco ou 
mais variaveis, devera ser feita sempre com base na determina^ao dos coeficientes de correla^ao parcial de ordens 
mais baixas. Na se$ao 10.2.6, elaboraremos um exemplo pratico com a utiliza^ao de quatro variaveis, em que a 
solu^ao algebrica da estatistica KMO sera obtida por meio da expressao (10.8). 

E importante ressaltar que, mesmo que o coeficiente de correlagao de Pearson entre duas variaveis seja 0, o 
coeficiente de correla^ao parcial entre elas pode nao ser igual a 0, dependendo dos valores dos coeficientes de 
correla^ao de Pearson entre cada uma dessas variaveis e as demais presentes na base de dados. 

Para que uma analise fatorial seja considerada adequada, os coeficientes de correla^ao parcial entre as variaveis 
devem ser baixos. Esse fato denota que as variaveis compartilham um percentual de variancia elevado, e a des- 
considera^ao de uma ou mais delas na analise pode prejudicar a qualidade da extra^ao dos fatores. Neste sentido, 
o Quadro 10.1 apresenta, segundo criterio ja bastante aceito na literatura, um indicativo sobre a rela^ao entre a 
estatistica KMO e a adequa^ao global da analise fatorial. 


Quadro 10.1 Rela^ao entre a estatistica KMO e a adequagao global da analise fatorial. 


Estatistica KMO 

Adequa^ao Global da Analise Fatorial 

Entre 1,00 e 0,90 

Muito boa 

Entre 0,90 e 0,80 

Boa 

Entre 0,80 e 0,70 

Media 

Entre 0,70 e 0,60 

Razoavel 

Entre 0,60 e 0,50 

Ma 

Menor do que 0,50 

Inaceitavel 


Ja o teste de esfericidade de Bartlett (Bartlett, 1954) consiste em comparar a matriz de correlates p com uma 
matriz identidade I de mesma dimensao. Se as diferen^as entre os valores correspondentes fora da diagonal prin¬ 
cipal de cada matriz nao forem estatisticamente diferentes de 0, a determinado nivel de significance, poderemos 
considerar que a extra^ao dos fatores nao sera adequada. Nesse caso, em outras palavras, as correlates de Pearson 
entre cada par de variaveis sao estatisticamente iguais a 0, o que inviabiliza qualquer tentativa de extra^ao de fa¬ 
tores a partir de variaveis originais. Logo, podemos definir as hipoteses nula e alternativa do teste de esfericidade 
de Bartlett da seguinte maneira: 



f 1 

Pl2 

■■ Pif 


fl 

0 ••• 

0^ 

H 0 :p = 

P21 

1 ‘ 

Plk 

= 1= 

0 

1 ••• 

0 


\Pk 1 

Pk 2 



v° 

0 ••• 

b 



f 1 

P12 

•• PiP 


b 

0 

... (p 

Hr-P= 

P21 

1 • 

Pik 

* 1 = 

0 

1 

... 0 


vPfei 

Pk 2 

- O 



0 

... 1, 


A estatistica correspondente ao teste de esfericidade de Bartlett e uma estatistica j£ 2 , que apresenta a seguinte 
expressao: 
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^Bartlett 


(»- 1 )- 


2-fe+5 


•ln|D| 


(10.9) 


com —-- - graus de liberdade. Sabemos que n e o tamanho da amostra, e k, o numero de variaveis. Alem disso, 

2 

D representa o determinante da matriz de correlates p. 

O teste de esfericidade de Bartlett permite, portanto, que verifiquemos, para determinado numero de graus 
de liberdade e determinado nivel de significance, se o valor total da estatistica ^Bartlett e maior que o valor criti- 
co da estatistica. Se for o caso, poderemos afirmar que as correlates de Pearson entre os pares de variaveis sao 
estatisticamente diferentes de 0 e que, portanto, podem ser extraidos fatores a partir das variaveis originais, sendo 
a analise fatorial apropriada. Quando da elabora^ao de um exemplo pratico, na se^ao 10.2.6, tambem apresenta- 
remos os calculos da estatistica J^Bartiett e ° resultado do teste de esfericidade de Bartlett. 

Ressalta-se que deve ser sempre preferido o teste de esfericidade de Bartlett a estatistica KMO 
para efeitos de decisao sobre a adequa^ao global da analise fatorial, visto que, enquanto o primeiro e 
um teste com determinado nivel de significancia, o segundo e apenas um coeficiente (estatistica) calculado sem 
distribui^ao de probabilidades determinada e hipoteses que permitam avaliar o nivel correspondente de signifi¬ 
cancia para efeitos de decisao. 

Alem disso, e importante mencionarmos que, para apenas duas variaveis originais, a estatistica KMO sera sem¬ 
pre igual a 0,50, ao passo que a estatistica £ Bartlett podera indicar a rejei^ao ou nao da hipotese nula do teste de 
esfericidade, dependendo da magnitude da correla^ao de Pearson entre as duas variaveis. Logo, enquanto a esta¬ 
tistica KMO sera 0,50 nessas situates, sera o teste de esfericidade de Bartlett que permitira que o pesquisador 
decida sobre a extra^ao ou nao de um fator a partir das duas variaveis originais. Ja, para tres variaveis originais, 
e muito comum que o pesquisador extraia dois fatores com significancia estatistica do teste de esfericidade de 
Bartlett, porem com estatistica KMO menor que 0,50. Essas duas situates enfatizam ainda mais a maior relevan- 
cia do teste de esfericidade de Bartlett em rela^ao a estatistica KMO para efeitos de tomada de decisao. 

Por fim, vale mencionar que comumente encontramos na literatura a recomenda^ao de que seja estudada a 
magnitude da medida conhecida por alpha de Cronbach, de forma anterior ao estudo da adequa^ao global da 
analise fatorial, a fim de que seja avaliada a fidedignidade com que um fator pode ser extraido a partir de varia¬ 
veis originais. Ressaltamos que o alpha de Cronbach oferece ao pesquisador indicios apenas sobre a consistencia 
interna das variaveis do banco de dados para que seja extraido um unico fator. Assim, sua determina^ao nao re¬ 
presenta um requisito obrigatorio para a elabora^ao da analise fatorial, visto que essa tecnica permite a extra^ao 
de mais fatores. Entretanto, para efeitos didaticos, discutiremos os principais conceitos sobre o alpha de Cronbach 
no apendice deste capitulo, com determina^ao algebrica e correspondentes aplica^oes nos softwares SPSS e Stata. 

Discutidos esses conceitos e verificada a adequa^ao global da analise fatorial, podemos partir para a defini^ao 
dos fatores. 


10.23. Definite dos fatores por componentes principais: determinado dos autovalores e 
autovetores da matriz de correlates p e calculo dos scores fatoriais 

Como um fator representa a combina^ao linear de variaveis originais, podemos definir, para k variaveis, um 
numero maximo de k fatores (Ej, F 2 ,..., F k ), de maneira analoga a quantidade maxima de agrupamentos que po¬ 
dem ser definidos a partir de uma amostra com n observa^oes, conforme estudamos no capitulo anterior, visto 
que um fator tambem pode ser entendido com o resultado do agrupamento de variaveis. Dessa forma, para 
k variaveis, temos: 


F\i ~ s n 'X ti +% -X 2i +...+% -X ki 
^2i ~ S 12 'X u +S 22 ‘X 2i +... + S k2 'Xy 


^ki ~ s ik 'Xu+s 2k m X 2i +...+s kk - X ki 


( 10 . 10 ) 

em que os termos 5 sao conhecidos por scores fatoriais, que representam os parametros de um modelo linear 
que relaciona determinado fator com as variaveis originais. O calculo dos scores fatoriais e de fundamental 
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importancia dento do contexto da tecnica de analise fatorial e e elaborado a partir da determinate) dos auto- 
valores e autovetores da matriz de correlates p. Na expressao (10.11), reproduzimos a matriz de correlates P 
ja apresentada na expressao (10.1). 


^ 1 Pi 2 

P21 ^ 

^Pkl Pk 2 


P\k 

P2k 

1 


( 10 . 11 ) 


Essa matriz de correlates, com dimensoes k X k, apresenta k autovalores A 2 (A 2 > A? 2 > ... > A 2 ), que podem 
ser obtidos a partir da solu^ao da seguinte equa^ao: 

det(>l 2 - I—p) = 0 (10.12) 

em que lea matriz identidade, tambem com dimensoes k x fe. 

Como determinado fator representa o resultado do agrupamento de variaveis, e importante ressaltar que: 

X\+X\+...+X 2 k =k 


(10.13) 


A expressao (10.12) pode ser reescrita da seguinte maneira: 


= 0 


de onde podemos definir a matriz de autovalores A 2 da seguinte forma: 


A 2 -l 

P 12 

Plk 

— P 21 

A 2 -l •. 

~p2k 

~pk 1 

— Pfe2 

• A 2 -l 


(10.14) 


A 2 = 


f X\ 0 

0 A 2 , 


v 0 0 - A 2 y 


(10.15) 


Para que sejam definidos os autovetores da matriz p com base nos autovalores, devemos resolver os seguintes 
sistemas de equates para cada autovalor X 2 (A 2 > X 2 2 > ... >X 2 k ): 

• Determinate* de Autovetores v n , v 21 ,..., v kx a partir do Primeiro Autovalor (A 2 ): 


"a 2 -1 

P 12 

Plfe 

P 21 

A 2 -l 

_ P2fe 

V - Pfe 1 

“Pk2 

A 2 -1 


\ 





••• 

= 

... 0 

y 



l«J 


(10.16) 


de onde vem que: 


(A 2 -1)- v u -p n ■ v 21 ...-p u ■ v M =0 
~p2\ ' 'O 1 +(Ai — 1)' ^21 * * * P2k ' — ^ 

~Pk l' ^11 ~Pk2 ' — 1)' = ® 


(10.17) 
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• Determinate) de Autovetores v 12 , v 2 2 > •••, v k2 a partir do Segundo Autovalor (X 2 2 ): 


^2 1 Pl2 

\ 

~P\k 


fv ^ 

M2 


f°l 

“P21 ^2 - ^ 

~p2k 


v 22 

=z 

0 

Pkl ~Pk 2 

- 4-1, 


V V fe2, 


v°, 


de onde vem que: 

(A 2 2 -l)- v 12 ~Pi 2 ■ v 22 ...-p lk -V k2 =0 

' ~ P21 ' 1)* V 22-"—p2k ' V fe2 = ® 

rfti • V 12 -p fc2 • v 22 ...+(A 2 - 1 ) ■■ V fe2 =0 

• Determinate de Autovetores v lh v 2h v kk a partir do fe-esimo Autovalor (X 2 ): 


1 P12 

~ P21 — 1 

- "P ,4 

_ P22 


v 2fe 

II 

V 

0 

V Pkl —pk 2 

•• 4 -i, 


*< • 

^_ 

1 1 

A 


de onde vem que: 

(4~1)- v lfe -p 12 • v^.-pu • v kk =0 
_ — P 2 I ‘ V lk"KA 2 — l) - ^ 2 k---~P 2 k ' V kk = ® 

rPki y ik-p k 2 ■ v 2 k-+(k 2 k -i)- v u =o 


(10.18) 


(10.19) 


( 10 . 20 ) 


( 10 . 21 ) 


Dessa forma, podemos calcular os scores fatoriais de cada fator com base na determinate) dos autovalores e 
autovetores da matriz de correlates p- Os vetores dos scores fatoriais podem ser definidos da seguinte forma: 

• Scores Fatoriais do Primeiro Fator: 

& 


r s ^ 


Scores Fatoriais do Segundo Fator: 


Si- 


*21 




k 21 




v k\ 


f s ^ 

M2 


^2 — 


J 22 




vt y 




k 22 


( 10 . 22 ) 


n 2 

vV4y 


(10.23) 
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Scores Fatoriais do fe-esimo Fator: 


S* = 


( c \ 

s \k 


*2k 


\ S kkJ 


v \k 


Yu 

Yu 

M, 


(10.24) 


Como os scores fatoriais de cada fator sao padronizados pelos respectivos autovalores, os fatores do conjunto 
de equates apresentado na expressao (10.10) devem ser obtidos pela multiplica^ao de cada score fatorial pela 
correspondente variavel original, padronizada por meio do procedimento Zscores . Dessa forma, podemos obter 
cada um dos fatores com base nas seguintes equates: 
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em que ZX { representa o valor padronizado de cada variavel X para determinada observa^ao i. Ressalta-se que to- 
dos os fatores extraidos apresentam, entre si, correlates de Pearson iguais a 0, ou seja, sao ortogonais entre si. 

Um pesquisador mais atento notara que os scores fatoriais de cada fator correspondem exatamente aos para- 
metros estimados de um modelo de regressao linear multipla que apresenta, como variavel dependente, o 
proprio fator e, como variaveis explicativas, as variaveis padronizadas. 

Matematicamente, e possivel ainda verificar a rela^ao existente entre os autovetores, a matriz de correlates p 
e a matriz de autovalores A 2 . Logo, definindo-se a matriz de autovetores V da seguinte forma: 
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(10.27) 


(10.28) 


Na se^ao 10.2.6 apresentaremos um exemplo pratico a partir do qual essa rela^ao podera ser verificada. 

Enquanto na se£ao 10.2.2, discutimos a adequa^ao global da analise fatorial, nesta se^ao apresentamos os pro- 
cedimentos para a extra^ao dos fatores, no caso de a tecnica se mostrar apropriada. Mesmo sabendo, para k va¬ 
riaveis, que o numero maximo de fatores e tambem igual a fe, e de fundamental importancia que o pesquisador 
defina, com base em determinado criterio, a quantidade adequada de fatores que, de fato, representam as variaveis 
originais.Em nosso exemplo hipotetico da se^ao 10.2.1, vimos que apenas dois fatores (F x e F 2 ) seriam suficien- 
tes para representar as tres variaveis originais (X 1? X 2 e X 3 ). 
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Embora o pesquisador tenha liberdade para definir, de forma preliminar, a quantidade de fatores a serem ex¬ 
traidos na analise, visto que pode ter a inten^ao de verificar, por exemplo, a validade de um constructo previa- 
mente estabelecido (procedimento conhecido por criterio a priori), e de fundamental importancia que seja feita 
uma analise com base na magnitude dos autovalores calculados a partir da matriz de correlates p. 

Como os autovalores correspondem ao percentual de variancia compartilhada pelas variaveis originais para 
a forma^ao de cada fator, conforme discutiremos na se^ao 10.2.4, como )c x > > ... > X 2 k e sabendo-se que os 

fatores F 1? F 2 , • ••> F fe sao obtidos a partir dos respectivos autovalores, fatores extraidos a partir de autovalores menores 
sao formados a partir de menores percentuais de variancia compartilhada pelas variaveis originais.Visto que um fator 
representa determinado agrupamento de variaveis, fatores extraidos a partir de autovalores menores que 1 possivel- 
mente nao conseguem representar o comportamento de sequer uma variavel original (claro que para a regra existem 
exce^oes, que ocorrem para os casos em que determinado autovalor e menor mas muito proximo a 1). O criterio de 
escolha da quantidade de fatores, em que sao levados em considerate apenas os fatores correspondentes a autovalores 
maiores que 1, e comumente utilizado e conhecido por criterio da raiz latente ou criterio de Kaiser. 

O metodo para a extra^ao de fatores apresentado neste capitulo e conhecido como componentes princi¬ 
pais, e o primeiro fator F lf formado pelo maior percentual de variancia compartilhada pelas variaveis originais, 
e tambem chamado de fator principal. Esse metodo e profundamente referenciado na literatura e utilizado na 
pratica quando o pesquisador deseja elaborar uma redu^ao estrutural dos dados para a cria^ao de fatores ortogo- 
nais, definir rankings de observances por meio dos fatores gerados e ate mesmo verificar a validade de constructos 
previamente estabelecidos. Outros metodos para extra^ao dos fatores, como aqueles conhecidos por minimos 
quadrados generalizados, minimos quadrados ponderados, maxima verossimilhan^a, alpha factoring 
e image factoring, apresentam diferentes criterios e determinadas particularidades e, embora tambem possam ser 
encontrados na literatura, nao serao abordados neste livro. 

Alem disso, e comum que se discuta sobre a necessidade de que a analise fatorial seja aplicada a variaveis que 
apresentem normalidade multivariada dos dados, para que haja consistencia quando da determina^ao dos sco¬ 
res fatoriais. Entretanto, e importante ressaltar que a normalidade multivariada e uma suposi^ao bastante rigida, 
sendo necessaria somente para alguns metodos de extra^ao dos fatores, como o metodo de maxima verossimi- 
lhan^a. A maioria dos metodos de extra^ao de fatores nao requer a suposi^ao de normalidade multivariada dos 
dados e, conforme discute Gorsuch (1983), a analise fatorial por componentes principais parece ser, na pratica, 
bastante robusta contra violates de normalidade. 

10.2.4. Cargas fatoriais e comunalidades 

Estabelecidos os fatores, podemos definir as cargas fatoriais, que nada mais sao que correlates de Pearson 
entre as variaveis originais e cada um dos fatores. A Tabela 10.2 apresenta as cargas fatoriais para cada par 
variavel-fator. 


Tabela 10.2 Cargas fatoriais entre variaveis originais e fatores. 


Fator 

Variavel ^- 


F 2 

... 

F k 


c l\ 

c \2 


C \k 

*2 

c 2\ 

c 22 

c 2k 

: 

: 




c k\ 

C k2 

c kk 


Com base no criterio da raiz latente (em que sao considerados apenas fatores oriundos de autovalores maio¬ 
res que 1), e de se supor que as cargas fatoriais entre os fatores correspondentes a autovalores menores que 1 e 
todas as variaveis originais sejam baixas, visto que ja terao apresentado correlates de Pearson (cargas) mais ele- 
vadas com fatores extraidos anteriormente a partir de autovalores maiores. Do mesmo modo, variaveis originais 
que compartilhem apenas uma pequena parcela de variancia com as demais variaveis apresentarao cargas fatoriais 
elevadas apenas em um unico fator. Caso isso ocorra para todas as variaveis originais, nao existirao diferen^as sig- 
nificativas entre a matriz de correlates pea matriz identidade I, tornando a estatistica ^Bartlett muito baixa. Esse 
fato permite afirmar que a analise fatorial sera inapropriada, e, nessa situa^ao, o pesquisador podera optar por nao 
extrair fatores a partir das variaveis originais. 
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Como as cargas fatoriais sao as correlates de Pearson entre cada variavel e cada fator, a somatoria dos qua- 
drados dessas cargas em cada linha daTabela 10.2 sera sempre igual a 1, visto que cada variavel compartilha parte 
do seu percentual de variancia com todos os k fatores, e a somatoria dos percentuais de variancia (cargas fatoriais 
ou correlates de Pearson ao quadrado) sera 100%. 

Por outro lado, caso seja extraida uma quantidade de fatores menor que k , em fun^ao do criterio da raiz laten- 
te, a somatoria dos quadrados das cargas fatoriais em cada linha nao chegara a ser igual a 1. A essa somatoria, da-se 
o nome de comunalidade, que representa a variancia total compartilhada de cada variavel em todos os 
fatores extraidos a partir de autovalores maiores que 1. Logo, podemos escrever que: 

c \\ + +... = comunalidade X 1 
c \\ + c 22 + • • • = comunalidade X^ 


c ki + clo + •.. = comunalidade X u 


L k2 


(10.29) 

O objetivo principal da analise das comunalidades e verificar se alguma variavel acaba por nao compartilhar 
um significativo percentual de variancia com os fatores extraidos. Embora nao haja um ponto de corte a partir 
do qual determinada comunalidade possa ser considerada alta ou baixa, visto que o tamanho da amostra pode 
interferir nesse julgamento, a existencia de comunalidades consideravelmente baixas em rela^ao as demais pode 
sugerir que o pesquisador reconsidere a inclusao da respectiva variavel na analise fatorial. 

Logo, definidos os fatores com base nos scores fatoriais, podemos afirmar que as cargas fatoriais serao exata- 
mente iguais aos parametros estimados de um modelo de regressao linear multipla que apresenta, como variavel 
dependente, determinada variavel padronizada ZX e, como variaveis explicativas, os proprios fatores, sendo o 
coeficiente de ajuste R 2 de cada modelo igual a propria comunalidade da respectiva variavel original. 

A somatoria dos quadrados das cargas fatoriais em cada coluna daTabela 10.2, por outro lado, sera igual ao 
respectivo autovalor, visto que a razao entre cada autovalor e a quantidade total de variaveis pode ser entendida 
como o percentual de variancia compartilhada por todas as k variaveis originais para a forma^ao de cada fator. 
Logo, podemos escrever que: 


C 11 + C 2l + -" + C kl ~"^1 
2,2, , 2 _ n2 

^12 ' ^22 ' *•* ' C k2 ~ A 2 


L lk 


+ c \ k +... + c1 u —7C 


kk ■ 


(10.30) 


Apos a determina^ao dos fatores e do calculo das cargas fatoriais, e possivel ainda que algumas variaveis apresen- 
tem correla^oes de Pearson (cargas fatoriais) intermediarias (nem tao altas, nem tao baixas) com todos os fatores ex¬ 
traidos, embora sua comunalidade nao seja relativamente tao baixa. Nesse caso, embora a solu^ao da analise fatorial 
ja tenha sido obtida de forma adequada e considerada finalizada, o pesquisador pode, para os casos em que a tabela 
de cargas fatoriais apresentar valores intermediaries para uma ou mais variaveis em todos os fatores, elaborar uma 
rota^ao desses fatores, a fim de que sejam aumentadas as correlates de Pearson entre as variaveis originais e novos 
fatores gerados. Na proxima se^ao, trataremos especificamente da rota^ao de fatores. 


10.2.5. Rota^ao de fatores 

Imaginemos novamente uma situa^ao hipotetica em que determinado banco de dados apresenta apenas tres 
variaveis (k = 3). Apos a elabora^ao da analise fatorial por componentes principal, sao extraidos dois fatores, 
ortogonais entre si, com cargas fatoriais (correlates de Pearson) com cada uma das tres variaveis originais, de 
acordo com a Tabela 10.3. 


Tabela 10.3 Cargas fatoriais entre tres variaveis e dois fatores. 


Fator 

Variavel . 

F. 


X! 

C U 

C 12 

X 2 

C 21 

°22 

*3 

C 31 

c 32 
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A fim de que possa ser elaborado um grafico com as posi^oes relativas de cada variavel em cada fator (grafi- 
co conhecido como loading plot), podemos considerar as cargas fatoriais coordenadas (abcissas e ordenadas) das 
variaveis em um piano cartesiano formado pelos dois fatores ortogonais. Esse grafico encontra-se, de maneira 
exemplificada, na Figura 10.5. 
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Figure 10.5 Loading plot para situa^ao hipotetica com tres variaveis e dois fatores. 

Para que tenhamos melhor visualiza^ao das variaveis mais representadas por determinado fator, podemos pen- 
sar em uma rota^ao, em torno da origem, dos fatores originalmente extraidos F 1 e F 2 , de modo a aproximar os 
pontos correspondentes as variaveis X 1 , X 2 e X 3 de um dos novos fatores, chamados de fatores rotacionados 
F\ e F' 2 . A Figura 10.6 apresenta essa situa^ao de forma exemplificada. 



Figure 10.6 Defini^ao dos fatores rotacionados a partir dos fatores originais. 

Com base na Figura 10.6, podemos verificar, para cada variavel em analise, que, enquanto a carga para um 
fator e aumentada, para o outro, e diminuida. A Tabela 10.4 mostra a redistribui^ao de cargas para nossa situa^ao 
hipotetica. 
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Tabela 10.4 Cargas fatoriais originais e rotacionadas para a nossa situa^ao hipotetica. 



Cargas Fatoriais Originais 

Cargas Fatoriais Rotacionadas 

Fator 

Variavel 

Fi 

f 2 

F\ 

F\ 

x, 

c u 

C 12 

kill > knl 

1 c 12 1 < | c 12 1 

X 2 

C 21 

C 22 

1 4l 1 > 1 ^21 1 

1 c 22 1 < 1 ^22 1 

X 3 

C 31 

c 2>2 

1 4l 1 < 1 C 3\ 1 

1 ^32 1 > 1 C 32 | 


Logo, para uma situa^ao generica, podemos afirmar que a rota^ao e um procedimento que maximiza as car- 
gas de cada variavel em determinado fator, em detrimento dos demais. Nesse sentido, o efeito final da rota^ao e 
a redistribute* das cargas fatoriais para fatores que inicialmente apresentavam menores percentuais de variancia 
compartilhada por todas as variaveis originais. O objetivo principal e minimizar a quantidade de variaveis com 
altas cargas em determinado fator, ja que cada um dos fatores passara a ter cargas mais expressivas somente com 
algumas das variaveis originais. Consequentemente, a rota^ao pode simplificar a interpreta^ao dos fatores. 

Embora as comunalidades e o percentual total de variancia compartilhada por todas as variaveis em todos os 
fatores nao sejam alterados com a rotagao (tampouco as estatisticas KMO e ^Bartlett)* ° percentual de variancia 
compartilhada pelas variaveis originais em cada fator e redistribuido e, portanto, alterado. Em outras palavras, sao 
determinados novos autovalores A' (A^, A^, ..., A£) a partir das cargas fatoriais rotacionadas. Assim, podemos 
escrever que: 

c '11 + c ' 12 + • • • = comunalidade X x 
c 2 i +c 22 +••• = eomunalidade X^ 


e que: 


c fei + c ' li + • ♦ • “ comunalidade X k 


(10.31) 


c ' 2 u +c ,2 2l +...+c'l=X 

• 2 . * 2 , , ' 2 _^.2 .\2 

C 12 ' C k2~ ^ 2^^2 


l+c% + ... + c'l k =X'l*Xl 


(10.32) 


mesmo sendo respeitada a expressao (10.13), ou seja: 

A^+A^+.-.+A 2 *, = A' 2 +A , 2 +...+A'k = k (10.33) 

Alem disso, a partir da rota^ao dos fatores, sao obtidos novos scores fatoriais rotacionados, s’, de modo que 
as expressoes finais dos fatores rotacionados serao: 


F li —s n • ZX Xi + s 2 i • ZX 2i +... + 5 kX • ZX ki 
F2i = 5 12 * ZX U + 5 22 * ZX 2{ + ... + S fe2 * ZX fa . 


E*,- = 5 ifc • zx* + * ’ 2fe • zx 2 • +...+5' • ZX fa . (10.34) 

E importante ressaltar que a adequa^ao global da an£ise fatorial (estatistica KMO e teste de esfericidade de 
Bartlett) nao e alterada com a rota^ao, ja que a matriz de correlates p continua a mesma. 

Embora existam diversos metodos de rota^ao fatorial, o mais utilizado e que sera adotado quando da ela¬ 
borate* pratica de um exemplo neste capitulo refere-se ao metodo de rota£ao ortogonal conhecido por 
Varimax, cuja principal finalidade e minimizar a quantidade de variaveis que apresentam elevadas cargas em 
determinado fator por meio da redistribuido das cargas fatoriais e maximiza^ao da variancia compartilhada em 
fatores correspondentes a autovalores mais baixos. Dai decorre a nomenclatura Varimax, proposta por Kaiser 
(1958). 
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O algoritmo por tras do metodo de rota^ao Varimax consiste em determinar um angulo de rota^ao 9 em 
que pares de fatores sao rotacionados igualmente. Logo, conforme discute Harman (1968), para determinado 
par de fatores F 1 e F 2 , por exemplo, as cargas fatoriais rotacionadas c' entre os dois fatores e as k variaveis ori¬ 
ginals sao obtidas a partir das cargas fatoriais originais c, por meio da seguinte multiplica^ao matricial: 


C 21 

K C kl 


C 12 




L 22 
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- sen 9 ^ 
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22 


k2 J 


(10.35) 


em que 9 , angulo de rota^ao no sentido anti-horario, e obtido pela seguinte expressao: 


0=O,25*arctan 


2 -(D-k-A-B) 
C-k-(A 2 -B 2 ) 


sendo: 
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(10.37) 


(10.38) 


(10.39) 
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Na se^ao 10.2.6, faremos uso dessas expressoes do metodo de rotagao Varimax para determinar as cargas fa¬ 
toriais rotacionadas a partir das cargas originais. 

Alem da rota^ao Varimax, outros metodos de rota^ao ortogonal tambem podem ser mencionados, como o 
Quartimax e o Equimax, embora sejam menos referenciados na literatura e utilizados com menor intensidade 
na pratica. Alem deles, o pesquisador ainda pode fazer uso de metodos de rota^ao obliqua, em que sao ge- 
rados fatores nao ortogonais. Embora nao sejam abordados neste capitulo, merecem men^ao nesta categoria os 
chamados Direct Oblimin e Promax. 

Como os metodos de rota^ao obliqua podem, por vezes, ser utilizados quando se deseja validar determi¬ 
nado constructo, cujos fatores iniciais sejam nao correlacionados, recomenda-se que um metodo de rota^ao 
ortogonal seja utilizado para uso subsequente dos fatores extraidos em outras tecnicas multivariadas, como 
determinados modelos confirmatorios em que e exigida a premissa de ausencia de multicolinearidade de va¬ 
riaveis explicativas. 


10.2.6. Exemplo pratico de analise fatorial por componentes principals 

Imagine que nosso mesmo professor, bastante engajado com atividades academicas e didaticas, tenha agora o 
interesse em estudar como se comportam as notas de seus alunos para, em sequencia, propor um ranking de de- 
sempenho escolar. 

Para tanto, ele fez um levantamento sobre as notas finais, que variam de 0 a 10, de cada um de seus 100 alu¬ 
nos nas disciplinas de Finan^as, Custos, Marketing e Atuaria. Parte do banco de dados elaborado encontra-se na 
Tabela 10.5. 
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Tabefa 10.5 Exemplo: Notas final's de Finan^as, Custos, Marketing e Atuaria. 


Estudante 

Nota final de 
Finan^as 
(Xu) 

Nota final de 
Custos 
(X 2i ) 

Nota final de 
Marketing 
(X 3i ) 

Nota final de 
Atuaria 
(X 4i ) 

Gabriela 

5,8 

4,0 

1,0 

6,0 

Luiz Felipe 

3,1 

3,0 

10,0 

2,0 

Patricia 

3,1 

4,0 

4,0 

4,0 

Gustavo 

10,0 

8,0 

8,0 

8,0 

Leticia 

3,4 

2,0 

3,2 

3,2 

Ovidio 

10,0 

10,0 

1,0 

10,0 

Leonor 

5,0 

5,0 

8,0 

5,0 

Dalila 

5,4 

6,0 

6,0 

6,0 

Antonio 

5,9 

4,0 

4,0 

4,0 


Estela 

8,9 

5,0 

2,0 

8,0 


O banco de dados completo pode ser acessado por meio do arquivo NotasFatorial.xls. 

Por meio desse banco de dados, e possivel que seja elaborada aTabela 10.6, que apresenta os coeficientes de 
correlate* de Pearson entre cada par de variaveis, calculados por meio da logica apresentada na expressao (10.2). 


Tabela 10.6 Coeficientes de correlate* de Pearson para cada par de variaveis. 



finangas 

custos 

marketing 

atuaria 

jinangas 

1,000 

0,756 

-0,030 

0,711 

custos 

0,756 

1,000 

0,003 

0,809 

marketing 

-0,030 

0,003 

1,000 

-0,044 

atuaria 

0,711 

0,809 

-0,044 

1,000 


Dessa forma, podemos escrever a expressao matriz de correlates p conforme segue: 


1 

Pi 2 

Pi 3 

Pl4 


f 1,000 

0,756 

-0,030 

0,711 ^ 

P 21 

1 

P23 

P24 


0,756 

1,000 

0,003 

0,809 

P 31 

P32 

1 

P34 


-0,030 

0,003 

1,000 

-0,044 


P42 

P43 

1 j 


v 0,711 

0,809 

-0,044 

1,000 , 


que apresenta determinante D = 0,137. 

Com base na analise da matriz de correlates P, e possivel verificar que apenas as notas correspondentes a 
variavel marketing nao apresentam correlates com as notas das demais disciplinas, representadas pelas outras 
variaveis. Por outro lado, estas apresentam correlates relativamente elevadas entre si (0,756 entre finangas e 
custos , 0,711 entre finangas e atuaria e 0,809 entre custos e atuaria ), o que indica que poderao compartilhar sig- 
nificativa variancia para a formate* de um fator. Embora essa analise preliminar seja importante, nao pode re- 
presentar mais que um simples diagnostico, visto que a adequate* global da analise fatorial precisa ser elabora¬ 
da com base na estatistica KMO e, principalmente, por meio do resultado do teste de esfericidade de Bartlett. 

Conforme discutimos na se$ao 10.2.2, a estatistica KMO fornece a propor^ao de variancia considerada 
comum a todas as variaveis presentes na analise, e, para que seja estabelecido seu calculo, precisamos deter- 
minar os coeficientes de correlate* parcial <p entre cada par de variaveis que, neste caso, serao coeficientes 
de correla$ao de segunda ordem, visto que estamos trabalhando com quatro variaveis simultaneamente. 

Logo, com base na expressao (10.7), precisamos determinar, inicialmente, os coeficientes de correlate* de pn- 
meira ordem utilizados para o calculo dos coeficientes de correlate de segunda ordem.ATabela 10.7 apresenta 
esses coeficientes. 
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Dessa maneira, a partir desses coeficientes e fazendo uso da expressao (10.8), podemos calcular os coeficien- 
tes de correlagao de segunda ordem considerados na expressao da estatistica KMO. ATabela 10.8 apresenta esses 
coeficientes. 


Tabela 10.8 Coeficientes de correla^ao de segunda ordem. 


?„34= =0,438 


<Pl3,2 


^13,2 ffl4,2 ' ^34,2 


-0,029 


<?23,1 


^ 23,1 ^ 24,1 * ^ 34,1 

Va-K.) (i-'Pm,.) 


= 0,072 


^ 14,2 ^ 13 , 2 *^ 34,2 Aorc 
<*> 14,23 = -========= = °, 255 

"V — ^13,2 ) * 0 “ ^34,2 ) 


<?>24,i: 


^24,1 ^23,1 ' ^34,1 


=0,592 


^34,12 — 


^ 34,1 923,1 * ^ 24,1 


r=-0,069 


Portanto, com base na expressao (10.3), podemos calcular a estatistica KMO. Os termos da expressao sao da¬ 
dos por: 


k k 

XX P Z ic =(0756) 2 +(-0,030) 2 +(0,711) 2 +(0,003) 2 +(0,809) 2 +(-0,044) 2 =1,734 

1=1 C =1 


k k 

(pi =(0,438) 2 +(-0,029) 2 +(0,255) 2 +(0,072) 2 +(0,592) 2 +(-0,069) 2 =0,619 

1=1 C =1 

de onde vem que: 


1734 

KMO =---= 0,737 

1,734+0,619 


O valor da estatistica KMO indica, com base no criterio apresentado no Quadro 10.1, que a adequa^ao glo¬ 
bal da analise fatorial e media. Para testarmos se, de fato, a matriz de correlates p e estatisticamente diferente 
da matriz identidade I de mesma dimensao, devemos recorrer ao teste de esfericidade de Bartlett, cuja estatistica 
^Bartlett e dada pela expressao (10.9).Temos, para n — 100 observances, k — 4 variaveis e determinate da matriz 
de correlates pD = 0,137, que: 


JC Bartlett 


( 100 - 1 )- 


2*4+5 


V 


) 


•In (0,137) = 192,335 


com ———— = 6 graus de liberdade. Logo, por meio da Tabela D do apendice do livro, temos que xt ~ 12,592 

( X 2 critico para 6 graus de liberdade e para o nivel de significance de 5%). Dessa forma, como Xmrtiett = 192,335 
> X^ — 12,592, podemos rejeitar a hipotese nula de que a matriz de correlates P seja estatisticamente igual a 
matriz identidade I, ao nivel de significance de 5%. 
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Softwares como o SPSS e o Stata nao oferecem o ^ para os graus de liberdade definidos e determinado nivel 
de significancia. Todavia, oferecem o nivel de significance do J^Bardett P ara esses gratis de liberdade. Dessa forma, 
em vez de analisarmos se J^Bardett > devemos verificar se o nivel de significancia do J^Bardett e menor que 0,05 
(5%) a fim de darmos continuidade a analise fatorial. Assim: 

Se valor-P (ou P-value ou Sig. ^Bardett ou Prob. ^Bardett) < 0,05, a matriz de correlates p nao e estatisticamente 
igual a matriz identidade I de mesma dimensao. 

O nivel de significancia do ^Bardett P°de ser obtido no Excel por meio do comando Formulas — > Inserir 
Fun^ao — > DIST.QUI, que abrira uma caixa de dialogo, conforme mostra a Figura 10.7. 



Figura 10.7 Obten^ao do nivel de significancia de ^ 2 (comando Inserir Fun^ao). 


Conforme podemos observar por meio da Figura 10.7, o valor-P da estatistica J^Bardett e consideravelmente 
menor que 0,05 (valor-P Xb ardett = 8,11 x 10 -39 ), ou seja, as correlates de Pearson entre os pares de variaveis sao 
estatisticamente diferentes de 0 e, portanto, podem ser extraidos fatores a partir das variaveis originais, sendo a 
analise fatorial bastante apropriada. Para um pesquisador interessado, todos esses calculos estao apresentados dire- 
tamente no arquivo NotasFatorialCalculosKMOBartlett.xls. 

Verificada a adequa^ao global da analise fatorial, podemos partir para a defmi^ao propriamente dita dos fato¬ 
res. Para tanto, devemos inicialmente determinar os quatro autovalores X 2 (X\ > X 2 2 > X 2 > A 4 ) da matriz de cor¬ 
relates P> que podem ser obtidos a partir da solu^ao da expressao (10.12). Sendo assim, temos que: 

X 2 -l -0,756 0,030 -0,711 

-0,756 A 2 -l -0,003 -0,809 

0,030 -0,003 A 2 -l 0,044 

-0,711 -0,809 0,044 A 2 -l 

de onde vem que: 

A 2 =2,519 
A 2 = 1,000 
A 2 =0,298 
A 2 =0,183 

Logo, com base na expressao (10.15), a matriz de autovalores A 2 pode ser escrita da seguinte forma: 

2,519 0 0 0 

0 1,000 0 0 

0 0 0,298 0 

0 0 0 0,183 



= 0 
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Note que a expressao (10.13) e satisfeita, ou seja: 

X] + A 2 2 +... ■+ X 2 k = 2,519 + 1,000+0,298+0,183 = 4 

Como os autovalores correspondem ao percentual de variancia compartilhada pelas variaveis originais para a 
forma^ao de cada fator, podemos elaborar uma tabela de variancia compartilhada (Tabela 10.9). 


Tabela 10.9 Variancia compartilhada pelas variaveis originais para a forma^ao de cada fator. 


Fator 

Autovalor X 2 

Variancia 

Compartilhada (%) 

Variancia Compartilhada 
Acumulada (%) 

1 

2,519 

^ 2,519 j-100 = 62,975 

62,975 

2 

1,000 

(+^)' 100=25 ’ 010 

87,985 

3 

0,298 

(“• 2<>8 ).100=7,444 

95,428 

4 

0,183 

[°’> 83 ).10O=4,572 

100,000 


Por meio da analise da Tabela 10.9, podemos aflrmar que, enquanto 62,975% da variancia total sao comparti- 
lhados para a formagao do primeiro fator, 25,010% sao compartilhados para a forma^ao do segundo. O terceiro e 
o quarto fatores, cujos autovalores sao menores que 1 , sao formados por meio de menores percentuais de varian¬ 
cia compartilhada. Como o criterio mais adotado para a escolha da quantidade de fatores e o criterio da raiz la- 
tente (criterio de Kaiser), em que sao levados em considerate apenas os fatores correspondentes a autovalores 
maiores que 1 , o pesquisador pode optar por elaborar toda a analise subsequente apenas com os dois primeiros 
fatores, formados pelo compartilhamento de 87,985% da variancia total das variaveis originais, ou seja, com perda 
total de variancia de 12,015%. Para efeitos didaticos, entretanto, vamos apresentar os calculos dos scores fatoriais 
por meio da determinate dos autovetores correspondentes aos quatro autovalores. 

Logo, para que sejam definidos os autovetores da matriz p com base nos quatro autovalores calculados, de- 
vemos resolver os seguintes sistemas de equates para cada autovalor, com base nas expressoes (10.16) a ( 10 . 21 ): 

• Determinate de Autovetores v n , v 21 , v 31 , u 41 a partir do Primeiro Autovalor (X\ = 2,519): 

(2,519-1,000) • v n -0,756 • v 21 +0,030 • v 31 -0,711 • v 41 = 0 
-0,756 ; v n +(2,519-1,000) • v 21 -0,003 • v 31 -0,809 • v 41 = 0 
' 0,030 • v n -0,003 • v 21 +(2,519-1,000) • v 31 +0,044 • v 41 = 0 
-0,711 • v n -0,809 • v 21 +0,044 • v 31 +(2,519-1,000) • v 41 =0 

de onde vem que: 


ro 


f 0,5641 ^ 

V 2 i 


0,5887 

V 31 


-0,0267 

UJ 


v 0,5783 y 


• Determinate) de Autovetores v 12 , v 22 , v 32 , v 42 a partir do Segundo Autovalor (A 2 = 1,000): 

0,000-1,000) -V 12 -0,756 *V 22 +0,030 -V 32 -0,711 -v 42 =0 
+0,756 • v 12 +(1,000—1,000) *V 22 -0,003 • v 32 -0,809 *v 42 =0 
0,030 • v 12 -0,003 • v 22 +(1,000-1,000) • V 32 +0,044 • v 42 = 0 
-0,711 -V 12 -0,809 • V 22 +0,044 -v 32 +(1,000-1,000) -V 42 =0 
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de onde vem que: 


(v } 

M2 


f 0,0068 " 

V 22 


0,0487 

V 3 2 


0,9987 

V V 42 J 


-0,0101, 


• Determinate) de Autovetores v 13 , v 23 , v 33 , v 43 a partir do Terceiro Autovalor (Ar 3 = 0,298): 

(0,298-1,000) • v 13 -0,756 • v 23 + 0,030 • v 33 -0,711 * v 43 = 0 

- 0,756 • v 13 + (0,298 -1,000) • v 23 - 0,003 • v 33 - 0,809 • v 43 = 0 
0,030 • v 13 - 0,003 • v 23 +(0,298 -1,000) • v 33 +0,044 • v 43 = 0 

- 0,711 • v 13 - 0,809 • v 23 + 0,044 • v 33 + (0,298 -1,000) • v 43 = 0 

de onde vem que: 


+7 


f 0,8008 N 

v 23 


-0,2201 

v 33 


-0,0003 

, V 43V 


-0,5571, 


Determina£ao de Autovetores v 14 , v 24 , v 34 , v 44 a partir do Quarto Autovalor (Ar 4 = 0,183): 

(0,183—1,000) -v 14 —0,756 • v 24 + 0,030 -v 34 - 0,711 • v 44 =0 
-0,756 • v 14 +(0,183-1,000) • v 24 -0,003 ♦ v 34 -0,809 • v 44 = 0 
0,030 • V 14 -0,003 • v 24 + (0,183-1,000) • v 34 + 0,044 ■ v 44 = 0 
[-0,711 • v 14 -0,809 • V 24 + 0,044 • v 34 +(0,183-1,000) • v 44 = 0 

de onde vem que: 


V H> 


' 0,2012 N 

^24 


-0,7763 

v 34 


0,0425 

V V 447 


v 0,5959, 


Determinados os autovetores, um pesquisador mais curioso podera comprovar a rela^ao apresentada na ex- 
pressao (10.27), ou seja: 

V f • p • V = A 2 


^0,5641 

0,5887 -0,0267 

0,5783 ^ 


f 1,000 

0,756 -0,030 

0,711 ^ 

0,0068 

0,0487 

0,9987 

-0,0101 


0,756 

1,000 0,003 

0,809 

0,8008 

-0,2201 -0,0003 

-0,5571 


-0,030 

0,003 1,000 

-0,044 

,0,2012 

-0,7763 0,0425 

0,5959 , 


v 0,711 

0,809 -0,044 

1,000 j 

f 0,5641 

0,0068 

0,8008 

0,2012 > 


^2,519 

0 0 

0 > 


0,5887 

0,0487 -0,2201 

-0,7763 


0 

1,000 0 

0 


-0,0267 

0,9987 -0,0003 

0,0425 


0 

0 0,298 

0 


, 0,5783 

-0,0101 -0,5571 

0,5959 j 


, o 

0 0 0,183 y 



Com base nas expressoes (10.22) a (10.24),podemos calcular os scores fatoriais correspondentes a cada uma das 
variaveis padronizadas para cada um dos fatores. Dessa forma, temos condi^oes de escrever, a partir da expressao 
(10.25), as expressoes dos fatores F u F 2 , F 3 e F 4 , conforme segue: 
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0,5641 ^ 0,5887 ^ 0,0267 ^ , . 0,5783 ^ , . 

p = •• ••••-. • Zfinancas- H— , Zcustos •- , Zmarketing: H— , - • Zatuana ■ 

11 V2319 J ' 4^519 ' 7^519 * 7^519 


^ 0,0068 ^ , 0,0487 „ , , 0,9987 „ , 

F 0i = , - Zjinangas ■ + . - • Zcustos ■ H— , • Zmarketingi - 


71,000 


71,000 


71,000 


0,0101 „ ,. 

- , • Zatuana , 

7l,000 


_ 0,8008 
3 ' _ 70,298 


• Zfinancas t 


0,2201 

70,298 


0,0003 
• Zcustos , — , — 

70,298 


• Zmarketingi - 


0,5571 
70,298 


• Zatuaria { 


F 4i 


0,2012 

.- * Zfinancas . - 

70,183 


0,7763 
70,1 83 


„ 0,0425 

• Zcustos1 H— , 

70,183 


„ , . 0,5959 

• Zmarketing: -\— , 

V 0,183 


• Zatuaria i 


de onde vem que: 

F lt - =0,355 • Zfman$as i +0,371* Zcustos . -0,017* Zmarketing i +0,364 • Zatuaria i 
F 2i =0,007• Zfinangas ■ +0,049 'Zcustos { +0,999 • Zmarketing • —0,010 * Zatuaria i 
F 3i = 1,468 • Zfinangas { —0,403 • Zcustos • -0,001 -Zmarketingi —1,021 -Zatuariai 
F 4i =0,470• ZfmangaSi —1,815* Zcustos { +0,099 • Zmarketingi +1,394 -Zatuariai 


Com base nas expressoes dos fatores e nas variaveis padronizadas,podemos calcular os valores correspondentes 
a cada fator para cada observa^ao. A Tabela 10.10 mostra esses resultados para parte do banco de dados. 


Tabela 10.10 Calculo dos fatores para cada observa^ao. 


Estudante 

ZjinangaSi 

Zcustos { 

Zmarketingi 

Zatuariai 

Fii 

F 2i 

Fa 

F« 

Gabriela 

- 0,011 

-0,290 

-1,650 

0,273 

0,016 

-1,665 

-0,176 

0,739 

Luiz Felipe 

-0,876 

-0,697 

1,532 

-1,319 

-1,076 

1,503 

0,342 

-0,831 

Patricia 

-0,876 

-0,290 

-0,590 

-0,523 

-0,600 

-0,603 

-0,634 

-0,672 

Gustavo 

1,334 

1,337 

0,825 

1,069 

1,346 

0,887 

0,327 

-0,228 

Leticia 

-0,779 

-1,104 

-0,872 

-0,841 

-0,978 

-0,922 

0,161 

0,379 

Ovidio 

1,334 

2,150 

-1,650 

1,865 

1,979 

-1,553 

-0,812 

-0,841 

Leonor 

-0,267 

0,116 

0,825 

-0,125 

- 0,111 

0,829 

-0,312 

-0,429 

Dalila 

-0,139 

0,523 

0,118 

0,273 

0,242 

0,139 

-0,694 

-0,623 

Antonio 

0,021 

-0,290 

-0,590 

-0,523 

-0,281 

-0,597 | 

0,682 

-0,250 


Estela 

0,982 

0,113 

-1,297 

1,069 

0,802 

-1,293 

0,305 

1,616 

Media 

0,000 

0,000 

0,000 

0,000 

0,000 

0,000 

0,000 

0,000 

Desvio-Padrao 

1,000 

1,000 

1,000 

1,000 

1,000 

1,000 

1,000 

1,000 


Para, por exemplo, a primeira observa^ao da amostra (Gabriela), podemos verificar que: 

^iGabriek = 0,355 • (-0,011) + 0,371 • (-0,290) - 0,017 • (-1,650) + 0,364 • (0,273) = 0,016 

Facabrida = 0,007 • (-0,011) + 0,049 • (-0,290) + 0,999 • (-1,650) - 0,010 • (0,273) = -1,665 

^Gabriela = 1,468 • (-0,011) - 0,403 • (-0,290) - 0,001 ♦ (-1,650) - 1,021 • (0,273) = -0,176 

F 4 Gabrieia = 0,470 • (-0,011) - 1,815 • (-0,290) + 0,099 • (-1,650) + 1,394 • (0,273) = 0,739 

Ressalta-se que todos os fatores extraidos apresentam, entre si, correlates de Pearson iguais a 0, ou seja, sao 

ortogonais entre si. 

Um pesquisador mais curioso podera ainda verificar que os scores fatoriais correspondentes a cada fator sao 
exatamente os parametros estimados de um modelo de regressao linear multipla que apresenta, como variavel 
dependente, o proprio fator, e como variaveis explicativas, as variaveis padronizadas. 
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Estabelecidos os fatores, podemos definir as cargas fatoriais, que correspondem aos coeficientes de correla^ao 
de Pearson entre as variaveis originais e cada um dos fatores. A Tabela 10.11 apresenta as cargas fatoriais para os 
dados do nosso exemplo. 


Tabela 10.11 Cargas fatoriais (coeficientes de correla^ao de Pearson) entre variaveis e fatores. 


Fator 

Variavel 

i 7 ! 

F 2 

p 3 

F 4 

finangas 

0,895 

0,007 

0,437 

0,086 

custos 

0,934 

0,049 

-0,120 

-0,332 

marketing 

-0,042 

0,999 

0,000 

0,018 

atuaria 

0,918 

-0,010 

-0,304 

0,255 


Para cada variavel original, foi destacado na Tabela 10.11 o maior valor da carga fatorial. Logo, podemos ve- 
rificar que, enquanto as variaveis finangas , custos e atuaria apresentam maiores correlates com o primeiro fator, 
apenas a variavel marketing apresenta maior correla^ao com o segundo fator. Isso comprova a necessidade de um 
segundo fator para que todas as variaveis compartilhem percentuais significativos de variancia. Entretanto, o ter- 
ceiro e quarto fatores apresentam correlates relativamente baixas com as variaveis originais, o que explica que os 
respectivos autovalores sejam menores que 1. Caso a variavel marketing nao tivesse sido inserida na analise, apenas 
o primeiro fator seria necessario para explicar o comportamento conjunto das demais variaveis, e os demais fa¬ 
tores tambem apresentariam respectivos autovalores menores que 1 . 

Logo, conforme discutimos na se^ao 10.2.4, podemos verificar que cargas fatoriais entre fatores correspon- 
dentes a autovalores menores que 1 sao relativamente baixas, visto que ja apresentaram correlates de Pearson 
mais elevadas com fatores extraidos anteriormente a partir de autovalores maiores. 

Com base na expressao (10.30), podemos verificar que a somatoria dos quadrados das cargas fatoriais em cada 
coluna da Tabela 10.11 sera o respectivo autovalor que, conforme discutimos, pode ser entendido como o percen- 
tual de variancia compartilhada pelas quatro variaveis originais para a forma^ao de cada fator. Logo, temos que: 

(0,895) 2 + (0,934 ) 2 + (-0,042) 2 + (0,918) 2 = 2,519 

(0,007)2 + (0,049)2 + (0,999)2 + (_0,010) 2 = 1,000 

(0,437)2 + (-0,120)2 + (0,000)2 + (_o,304) 2 = 0,298 

(0,086)2 + (-0,332)2 + (0,018)2 + (0,255) 2 - 0,183 

de onde podemos comprovar que o segundo autovalor somente atingiu o valor 1 por conta da alta carga fatorial 
existente para a variavel marketing. 

Alem disso, a partir das cargas fatoriais apresentadas na Tabela 10.11, podemos tambem calcular as comunali- 
dades, que representam a variancia total compartilhada de cada variavel em todos os fatores extraidos a partir de 
autovalores maiores que 1. Logo, podemos escrever, com base na expressao (10.29), que: 

comunalidade^^ = (0,895) 2 + (0,007) 2 = 0,802 
comunalidade CM5to5 = ( 0 , 934) 2 + (0,049) 2 = 0,875 
comunalidade mA ^ = (-0,042) 2 + (0,999 ) 2 = 1,000 
comunalidade^^ = (0,918) 2 + (-0,010 ) 2 = 0,843 


Logo, embora a variavel marketing seja a unica que apresenta carga fatorial elevada com o segundo fator, e a 
variavel em que menor percentual de variancia e perdido para a forma^ao dos dois fatores. Por outro lado, a va- 
riavel finangas e a que apresenta maior perda de variancia para a formagao desses dois fatores (cerca de 19,8%). Se 
tivessemos considerado as cargas fatoriais dos quatro fatores, obviamente todas as comunalidades seriam iguais a 1 . 
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Conforme discutimos na se^ao 10.2.4, pode-se verificar que as cargas fatoriais sao exatamente os parametros 
estimados de um modelo de regressao linear multipla, que apresenta, como variavel dependente, determinada 
variavel padronizada e, como variaveis explicativas, os proprios fatores, sendo o coeficiente de ajuste R 2 de cada 
modelo igual a comunalidade da respectiva variavel original. 

Para os dois primeiros fatores, portanto, podemos elaborar um grafico em que sao plotadas as cargas fatoriais 
de cada variavel em cada um dos eixos ortogonais que representam, respectivamente, os fatores F x e F 2 . Esse gra¬ 
fico, conhecido por loading plot, encontra-se na Figura 10.8. . 


A On 

marketing 

0,5 

.. custos 

finangas / 

^oP 

VJ > > 

1 1 

/ 


I 

atuaria 

-0,5 


-1 


-1 -0,5 ( 

D 0,5 1 


Figura 10.8 Loading plot . 


Por meio da analise do loading plot, fica claro o comportamento das correlates. Enquanto as variaveis finangas, 
custos e atuaria apresentam elevada correla^ao com o primeiro fator (eixo das abcissas), a variavel marketing apre¬ 
senta forte correla^ao com o segundo fator (eixo das ordenadas). Um pesquisador mais curioso podera investigar 
as razoes por que ocorre esse fenomeno, visto que, por vezes, enquanto as disciplinas Finangas, Custos e Atuaria 
sao ministradas de forma mais quantitativa, a disciplina Marketing pode ser ministrada com apelo mais qualitati¬ 
ve e comportamental. E importante mencionar, contudo, que a defmi^ao de fatores nao obriga o pesquisador a 
nomea-los,ja que frequentemente nao e tarefa simples. A analise fatorial nao tem, como um de seus obje- 
tivos, a nomea^ao de fatores, e, caso haja a inten^ao de faze-lo, e necessario que o pesquisador tenha profundo 
conhecimento sobre o fenomeno em estudo, e tecnicas confirmatorias podem auxilia-lo nessa empreitada. 

Podemos considerar, neste momento, encerrada a elaborate da analise fatorial por componentes principais. 
Entretanto, conforme discutimos na se^ao 10.2.5, caso o pesquisador deseje obter melhor visualiza^ao das variaveis 
mais representadas por determinado fator, pode elaborar uma rotagao por meio do metodo ortogonalVarimax, que 
maximiza as cargas de cada variavel em determinado fator. Como, em nosso exemplo, ja temos uma excelente ideia 
das variaveis com altas cargas em cada fator, sendo o loading plot (Figura 10.8) ja bastante claro, a rota^ao pode ser 
considerada desnecessaria. Sera elaborada, portanto, apenas para efeitos didaticos, visto que, por vezes, o pesquisador 
pode se deparar com situates em que tal fenomeno nao se apresente de forma tao clara. 

Logo, com base nas cargas fatoriais para os dois primeiros fatores (duas primeiras colunas daTabela 10.11), obtere- 
mos as cargas fatoriais rotacionadas c' apos a rota^ao dos dois fatores por um angulo 6. Sendo assim, com base na ex- 
pressao (10.35), podemos escrever que: 


^0,895 

0,934 

-0,042 

v 0,918 


0,007 

0,049 

0,999 


A 


^cos 6 
v sen 6 


- 0 , 010 J 


— sen0^ 
cos6 j 



\ c ki 


.. A 
' 12 


22 


k2 J 


em que o angulo de rota^ao no sentido anti-horario 0 e obtido a partir da expressao (10.36). Antes, entretanto, 
devemos determinar os valores dos termos A, B, C e D presentes nas expressoes (10.37) a (10.40). A constru^ao 
dasTabelas 10.12 a 10.15 nos auxilia para essa finalidade. 
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Tabela 10.12 Obtengao do termo/A para calculo do angulo de rotagao 0. 


Variavel 

Ci 

C 2 

comunalidade 

( 4 4 ) 

1 comunalidade, comunalidade, 1 

finangas 

0,895 

0,007 

0,802 

1,000 

custos 

0,934 

0,049 

0,875 

0,995 

marketing 

-0,042 

0,999 

1,000 

-0,996 

atuaria 

0,918 , 

-0,010 

0,843 

1,000 




A (soma) 

1,998 


Tabela 10.13 Obten^ao do termo B para calculo do angulo de rotagao 0. 


Variavel 

Cl 

c 2 

comunalidade 

L C ll C 21 1 

1 comunalidade,! 

finangas 

0,895 



0,015 

custos 

0,934 


0,875 

0,104 

marketing 

-0,042 

0,999 

1,000 

-0,085 

atuaria 

0,918 

-0,010 

0,843 

-0,022 


B (soma) 

0,012 


Tabela 10.14 Obten^ao do termo C para calculo do angulo de rotagao 6. 


Variavel 

Cl 

c 2 

comunalidade 

( 4 4 Y L c x i-c* Y 

1 comunalidade, comunalidade,! comunalidade,J 

finangas 

0,895 

0,007 

0,802 

1,000 

custos 

0,934 

0,049 

0,875 

0,978 

marketing 

-0,042 

0,999 

1,000 

0,986 

atuaria 

0,918 

-0,010 

0,843 

0,999 


C (soma) 

3,963 


Tabela 10.15 Obtengao do termo D para calculo do angulo de rota^ao 6. 


Variavel 

c i 

c 2 

comunalidade 

f 4 4 ) L 1 

(comunalidade, comunalidade,! 1 comunalidade, J 

finangas 

0,895 

0,007 

0,802 

0,015 

custos 

0,934 

0,049 

0,875 

0,103 

marketing 

-0,042 

0,999 

1,000 

0,084 

atuaria 

0,918 

-0,010 

0,843 

-0,022 


D (soma) 

0,181 


Logo, levando em considera^ao as k = 4 variaveis, e com base na expressao (10.36), podemos calcular o angulo 
de rota^ao no sentido anti-horario 9 da seguinte forma: 


9 = 0,25 • arctan 


2-(D-k-A-B) 

C-k-(A 2 —B 2 ) 


= 0,25 • arctan 


' 2-[(0,181)-4—(1,998)-(0,012)] ]_ 0Q29rad 
\ (3,9636) • 4—[(1,998) 2 -(0,012) 2 ] J 


E, por fim, podemos calcular as cargas fatoriais rotacionadas: 


0,895 0,007 " 



c ^ 
6 11 L 12 


0,895 —0,019^ 

0,934 0,049 


^cos 0,029 -senO,029^1 


C 21 C 22 


0,935 0,021 

-0,042 0,999 


v sen0,029 cos 0,029 , 


31 ^ 32 


-0,013 1,000 

O 

vO 

00 

1 

o 

o 

o 

V 



\ C 41 C 42) 


v 0,917 -0,037, 
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ATabela 10.16 apresenta, de forma consolidada, as cargas fatoriais rotacionadas pelo metodo Varimax para os 
dados de nosso exemplo. 

Tabela 10.16 Cargas fatoriais rotacionadas pelo metodo Varimax. 


Fator 

Variavel 

F\ 

F\ 

jinangas 

0,895 

-0,019 

custos 

0,935 

0,021 

marketing 

-0,013 

1,000 

atuaria 

0,917 

-0,037 


Conforme ja mencionamos, embora os resultados sem a rota^ao ja demonstrassem quais variaveis apresenta- 
vam elevadas cargas em cada fator, a rota^ao acabou por distribuir, ainda que levemente para os dados do nosso 
exemplo, as cargas das variaveis em cada um dos fatores rotacionados. Um novo loading plot (agora com cargas 
rotacionadas) tambem pode demonstrar essa situagao (Figura 10.9). 



Figura 10.9 Loading plot com cargas rotacionadas. 


Embora os graficos das Figuras 10.8 e 10.9 sejam muito parecidos, visto que o angulo de rota^ao 6 e bastante 
pequeno neste exemplo, e comum que o pesquisador encontre situa^oes em que a rota^ao ira contribuir consi- 
deravelmente para a elabora^ao de uma leitura mais facil das cargas, o que pode, consequentemente, simplificar 
a interpreta^ao dos fatores. 

E importante frisarmos que a rota^ao nao altera as comunalidades, ou seja, a expressao (10.31) pode ser ve- 
rificada: 

comunalidade^^ = (0,895) 2 + (-0,019) 2 = 0,802 
comunalidade CM5to5 = (0,935) 2 + (0,021) 2 = 0,875 
comunalidade^^ = (-0,013) 2 + (1,000) 2 = 1,000 
comunalidade^ na = (0,917) 2 + (-0,037) 2 = 0,843 

Entretanto, a rota^ao altera os autovalores correspondentes a cada fator. Sendo assim, temos, para os dois fa¬ 
tores rotacionados, que: 


(0,895) 2 + (0,935) 2 + (-0,013) 2 + (0,917) 2 = £\ = 2,518 
(-0,019) 2 + (0,021)2 + (1,000) 2 + (-0,037)2 = £\ = 1,002 
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ATabela 10.17 apresenta, com base nos novos autovalores X \ e X os percentuais de variancia compartilhada 
pelas variaveis originais para a forma^ao dos dois fatores rotacionados. 


Tabela 10.17 Variancia compartilhada pelas variaveis originais para a 
forma^ao dos dois fatores rotacionados. 


Fator 

Autovalor A' 2 

Variancia 

Compartilhada (%) 

Variancia Compartilhada 
Acumulada (%) 

1 

2,518 



•100 = 62,942 

62,942 

2 

1,002 


1,002^1 

l 4 J 

•100 = 25,043 

87,985 


Em compara^ao a Tabela 10.9, podemos perceber que, embora nao haja altera^ao do compartilhamento de 
87,985% da variancia total das variaveis originais para a forma^ao dos fatores rotacionados, a rota^ao redistribui 
a variancia compartilhada pelas variaveis em cada fator. 

Conforme discutimos, as cargas fatoriais correspondem aos parametros estimados de um modelo de regressao 
linear multipla que apresenta, como variavel dependente, determinada variavel padronizada e, como variaveis expli- 
cativas, os proprios fatores. Dessa forma, podemos, por meio de operates algebricas, chegar as expressoes dos scores 
fatoriais a partir das cargas, visto que eles representam parametros estimados dos respectivos modelos de regressao 
que tern, como variavel dependente, os fatores e, como variaveis explicativas, as variaveis padronizadas. Logo, chega- 
mos, a partir das cargas fatoriais rotacionadas (Tabela 10.16), as seguintes expressoes dos fatores rotacionados F\ e F\. 

F r u - 0,355 • ZfinangaSi + 0,372 • Zcustos { + 0,012 • Zmarketingi + 0,364 • Zatuaria { 

F' 2i — -0,004 * ZjinangaSi + 0,038 • Zcustos { + 0,999 • Zmarketing { - 0,021 • Zatuaria. ( 

Por fim, o professor deseja criar um ranking de desempenho escolar de seus alunos. Como os dois fatores rota¬ 
cionados, F\e F 2 , sao formados pelos maiores percentuais de variancia compartilhada pelas variaveis originais (no 
caso, 62,942% e 25,043% da variancia total, respectivamente, conforme mostra a Tabela 10.17) e correspondem 
a autovalores maiores que 1, serao utilizados para que seja elaborado o desejado ranking de desempenho escolar. 

Um criterio bastante aceito e utilizado para a forma^ao de rankings a partir de fatores e conhecido como cri¬ 
terio da soma ponderada e ordenamento, em que sao somados, para cada observa^ao, os valores obtidos de 
todos os fatores (que possuem autovalores maiores que 1) ponderados pelos respectivos percentuais de variancia 
compartilhada, com o subsequente ordenamento das observances com base nos resultados obtidos. Esse criterio 
e bastante aceito por considerar o desempenho em todas as variaveis originais, visto que a considera^ao apenas 
do primeiro fator (criterio do fator principal) pode nao levar em conta, por exemplo, o desempenho positivo 
obtido em determinada variavel que eventualmente compartilhe um consideravel percentual de variancia com o 
segundo fator. A Tabela 10.18 mostra, para 10 alunos escolhidos na amostra, o resultado do ranking de desempe¬ 
nho escolar resultante do ordenamento elaborado apos a soma dos valores obtidos dos fatores ponderados pelos 
respectivos percentuais de variancia compartilhada. 

O ranking completo pode ser acessado no arquivo NotasFatorialRanking.xls. 

E de fundamental importancia ressaltar que a cria^ao de rankings de desempenho a partir de variaveis originais 
e um procedimento considerado estatico, visto que a inclusao de novas observances ou variaveis pode alterar os 
scores fatoriais, o que torna obrigatoria a elaborado de uma nova analise fatorial. A propria evolunao temporal dos 
fenomenos representados pelas variaveis pode alterar a matriz de correlates, o que torna necessaria a reaplica£ao 
da tecnica para que sejam gerados novos fatores obtidos a partir de scores mais precisos e atualizados. Aqui cabe, 
portanto, uma critica a indicadores socioeconomicos que utilizam scores estaticos previamente estabelecidos para 
cada variavel no calculo do fator a ser utilizado para a defininao do ranking em situates em que novas observa¬ 
nces sejam constantemente incluidas; mais que isso, em situanoes em que haja a evolunao temporal, que altera a 
matriz de correlanoes das variaveis originais em cada periodo. 
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Tabela 10.18 Ranking de desempenho escolar pelo criterio da soma ponderada e ordenamento. 


Estudante 

Zjinan^aSi 

ZcustoSi 

Zmarketingi 

Zatuaria i 

F'u 

F'i, 

(F u ■ 0,62942) + (P 2i • 0,25043) 

ranking 

Adelino 

1,30 

2,15 

1,53 

1,86 

1,959 

1,568 

1,626 

1 

Renata 

0,60 

2,15 

1,53 

1,86 

1,709 

1,570 

1,469 

2 

.. 

Ovidio 

1,33 

2,15 

-1,65 

1,86 

1,932 

-1,611 

0,813 

13 

Kamal 

1,33 

2,07 

-1,65 

1,86 

1,902 

-1,614 

0,793 

14 

... _ n 

Itamar 

-1,29 

-0,55 

1,53 

-1,04 

-1,022 

1,536 

-0,259 

57 

Liliz Felipe 

-0,88 

-0,70 

1,53 

-1,32 

-1,032 

1,535 

-0,265 

58 

... : 

Gabriela 

-0,01 

-0,29 

-1,65 

0,27 

-0,032 

-1,665 

-0,437 

73 

Marina 

0,50 

-0,50 

-0,94 

-1,16 

-0,443 

-0,939 

-0,514 

74 

i 

Viviane 

-1,64 

-1,16 

-1,01 

-1,00 

-1,390 

-1,029 

-1,133 

99 

Gilmar 

-1,52 

-1,16 

-1,40 

-1,44 

-1,512 

-1,409 

-1,304 

too 


Vale comentar que os fatores extraidos sao variaveis quantitativas e, portanto, a partir deles, podem ser elabo- 
radas outras tecnicas multivariadas exploratorias, como analise de agrupamentos, dependendo dos objetivos do 
pesquisador. Alem disso, cada fator tambem pode ser transformado em uma variavel qualitativa, por meio, por 
exemplo, de sua categoriza^ao em faixas estabelecidas com base em determinado criterio e, a partir de entao, ser 
elaborada uma analise de correspondence, a fim de avaliar uma eventual associa^ao entre as categorias criadas e 
as categorias de outras variaveis qualitativas, conforme estudaremos no proximo capitulo. 

Os fatores podem tambem ser utilizados como variaveis explicativas de determinado fenomeno em modelos 
multivariados confirmatorios como, por exemplo, modelos de regressao multipla, visto que a ortogonalidade eli- 
mina problemas de multicolinearidade. Por outro lado, tal procedimento somente faz sentido quando ha o intuito 
de um diagnostico acerca do comportamento da variavel dependente, sem a inten^ao de previsoes. Como novas 
observa^oes nao apresentam os correspondentes valores dos fatores gerados, sua obten^ao somente e possivel ao 
se incluirem tais observa^oes em nova analise fatorial, a fim de se obterem novos scores fatoriais, ja que se trata de 
uma tecnica exploratoria. 

Alem disso, uma variavel qualitativa obtida por meio da categoriza^ao em faixas de determinado fator tambem 
pode ser inserida como variavel dependente de um modelo de regressao logistica multinomial, permitindo que o pes¬ 
quisador avalie as probabilidades que cada observa^ao tern de pertencer a cada faixa, em fun^ao do comportamento de 
outras variaveis explicativas nao inicialmente consideradas na analise fatorial. Ressaltamos, da mesma forma, que esse 
procedimento apresenta carater de diagnostico do comportamento das variaveis na amostra para as observagoes exis- 
tentes, sem finalidade preditiva. 

Na sequencia, esse mesmo exemplo sera elaborado nos softwares SPSS e Stata. Enquanto na se^ao 10.3 serao apre- 
sentados os procedimentos para elabora^ao da analise fatorial por componentes principals no SPSS, assim como seus 
resultados, na se^ao 10.4 serao apresentados os comandos para a elabora^ao da tecnica no Stata, com respectivos outputs. 

10.3. ANALISE FATORIAL POR COMPONENTES PRINCIPAL NO SOFTWARE SPSS 

Nesta segao, apresentaremos o passo a passo para a elabora^ao do nosso exemplo no IBM SPSS Statistics Software®. 
Seguindo a logica proposta no livro, o principal objetivo e propiciar ao pesquisador uma oportunidade de elaborar a 
analise fatorial por componentes principals neste software, dada sua facilidade de manuseio e a didatica das operates. A 
cada apresentagao de um output , faremos men^ao ao respectivo resultado obtido quando da solu^ao algebrica da tecnica 
na se^ao anterior, a fim de que o pesquisador possa compara-los e formar seu conhecimento e erudi^ao sobre o tema. 
A reprodu^ao das imagens nesta se^ao tern autoriza^ao da International Business Machines Corporation®. 

Voltando ao exemplo apresentado na se^ao 10.2.6, lembremos que o professor tern interesse em elaborar um 
ranking de desempenho escolar de seus alunos com base no comportamento conjunto das notas finais de quatro 
disciplinas. Os dados encontram-se no arquivo NotasFatorial.sav e sao exatamente iguais aos apresentados par- 
cialmente na Tabela 10.5 da se^ao 10.2.6. 

Para que seja elaborada, portanto, a analise fatorial, vamos clicar em Analyze —> Dimension Reduction —» 
Factor..., Uma caixa de dialogo como a apresentada na Figura 10.10 sera aberta. 
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f actcr Analysis 


83 


IS estudante. ~~1 

$ nota final de finanga... 
$ nota final de custos... 
$ nota final de marketL. 
$ nota final de atuaria . J 


Variables: 




[ Degertptivesv. 
I Extraction,,, 

[ Rotation... 

[ Scores... 

( Options... 


Selection Variable: 


pakiej 

( OK ] ["paste"] [ Reset ][cancel] ( Help ) 


Figura 10.10 Caixa de dialogo para elabora^ao da analise fatorial no SPSS. 

Na sequencia, devemos inserir as variaveis originais finangas , custos , marketing e atuaria em Variables, confor- 
me mostra a Figura 10.11. 


factor Analysis 


Variables: _ 

$ nota final de finanga... 
^ nota final de custos.... | 
$ nota final de marketL. 
nota final de atuaria.. . 



[ Descriptives... | 
[ Extraction... ] 
( Rotation... ] 
Scores.. 
qptions... 


[ OK ] [ Paste ] ["Reset ] [cancel ] [ Help ] 


Figura 10.11 Sele^ao das variaveis originais. 


Ao contrario do discutido no capitulo anterior, quando da elabora^ao da analise de agrupamentos, e impor- 
tante mencionar que o pesquisador nao precisa se preocupar com a padroniza^ao Zscores das variaveis originais 
para a elabora^ao da analise fatorial, visto que as correlates entre variaveis originais ou entre suas correspon- 
dentes variaveis padronizadas sao exatamente as mesmas. Mesmo assim, caso o pesquisador opte por padronizar 
cada uma das variaveis, ira perceber que os outputs serao exatamente os mesmos. 

No botao Descriptives..., marcaremos primeiramente a op^ao Initial solution em Statistics, que faz com 
que sejam apresentados nos outputs todos os autovalores da matriz de correlates,mesmo os menores que l.Alem 
disso, vamos tambem selecionar as op^oes Coefficients, Determinant e KMO and Bartlett's test of sphe¬ 
ricity em Correlation Matrix, conforme mostra a Figura 10.12. 


If® Factor Analysis: Descriptives 88 

| rStatistics--- 

□ Univariate descriptives 
M initial solution 

-Correlation Matrix--———- 

ffl Coefficients 0 Inverse 
0 Significance levels 0 Reproduced 
HI Determinant 0 Anti-image 
S3 KMO and Bartlett's test of sphericity 

[ Continue] [ Cancel ] [j Help j] 


Figura 10.12 Seleq:ao das opq:6es iniciais para elabora^ao da analise fatorial. 
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Ao clicarmos em Continue, voltaremos para a caixa de dialogo principal da analise fatorial. Na sequencia, 
devemos clicar no botao Extraction.... Conforme mostra a Figura 10.13, iremos manter selecionadas as op- 
goes referentes ao metodo de extragao dos fatores (Method: Principal components) e ao criterio de esco- 
lha da quantidade de fatores. Nesse caso, conforme discutimos na segao 10.2.3, serao levados em consideragao 
apenas os fatores correspondentes a autovalores maiores que 1 (criterio da raiz latente ou criterio de Kaiser), e, 
portanto, devemos manter selecionada a opgao Based on Eigenvalue —> Eigenvalues greater than: 1 em 
Extract. Alem disso, vamos tambem manter selecionadas as opgoes Unrotated factor solution, em Display, e 
Correlation matrix, em Analyze. 


f* 


Factor Analysis: Extraction 


Method; [Principal components v 

r An alyzfi-— -— 


D Correlation matrix 
I Covariance matrix 


■Display-*--—— 

M Unrotated factor solution 
O §cree plot 


-Extract—-*-—- 

© Based on Eigenvalue 

Eigenvalues greater than: jT 
© Fixed number of factors 

Factors to extract: 14 


Maximum Iterations for Convergence: [25 | 

[continue] [ Cancel ][ Help ) 


Figura 10.13 Escolha do metodo de extragao dos fatores e do criterio para determinagao da quantidade de fatores. 


Da mesma forma, vamos clicar em Continue para que retornemos a caixa de dialogo principal da analise fa¬ 
torial. Em Rotation..., vamos, por enquanto, selecionar a opgao Loading plot(s) em Display, mantendo ainda 
selecionada a opgao None em Method, conforme mostra a Figura 10.14. 


Factor Analysis: Rotation 

-Method—-—-——— 

© None © Quartimax 

© Varimax © Equannax 

© Direct Oblimin ©Promax 

Delta: 0 Kappa *4 I 

-Di s pi ay ---- 

[~1 Rotated solution B| Loading plGt(s) 

Maximum Iterations for Convergence: =25 
[Continue]("cancel ](fjHeljp j 


Figura 10.14 Caixa de dialogo para selegao do metodo de rotagao e do loading plot 

A opgao pela extragao de fatores ainda nao rotacionados neste momento e didatica, visto que os outputs gera- 
dos poderao ser comparados com os obtidos algebricamente na segao 10.2.6. O pesquisador ja pode, entretanto, 
optar por extrair fatores rotacionados j a nesta oportunidade. 

Apos clicarmos em Continue, podemos selecionar o botao Scores... na caixa de dialogo principal da tec- 
nica. Neste momento, selecionaremos apenas a opgao Display factor score coefficient matrix, conforme 
mostra a Figura 10.15, que faz com que sejam apresentados, nos outputs , os scores fatoriais correspondentes a cada 
fator extraido. 
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Factor Analysis: Factor Sco.,, 


□ Save as variabl es 

"IM eth od- 

© Regression 
©Bartlett 
© Anderson-Rubin 


Display factor score coefficient matrix 
Continue [ Cancel " | Help j] 


Figura 10.15 Sele^ao da op^ao para apresenta^ao dos scores fatorials. 


Na sequencia, podemos clicar em Continue e em OK. 

O primeiro output (Figura 10.16) apresenta a matriz de correlates p, igual a daTabela 10.6 da se^ao 10.2.6, 
por meio da qual podemos verificar que a variavel marketing e a unica que apresenta baixos coeficientes de corre- 
la^ao de Pearson com todas as demais variaveis. Conforme discutimos, e um primeiro indicio de que as variaveis 
finangas, custos e atuaria podem ser correlacionadas com determinado fator, enquanto a variavel marketing pode se 
correlacionar fortemente com outro. 


Correlation Matrix 3 



nota final de 
finanpas (0 a 
10) 

nota final de 
custos (0 a 

10) 

nota final de 
marketing (0 
a 10) 

nota final de 
atuaria (0 a 

10) 

Correlation nota final de finanpas (0 a 
10) 

1,000 

,756 

-,030 

,711 

nota final de custos (0 a 

10) 

,756 

1,000 

,003 

,809 

nota final de marketing (0 
a 10) 

-,030 

,003 

1,000 

-,044 

nota final de atuaria (0 a 

10) 

,711 

,809 

-.044 

1,000 


a. Determinant = ,137 

Figura 10.16 Coeficientes de correlate de Pearson. 


Podemos tambem verificar que o output da Figura 10.16 ainda traz o valor do determinante da matriz de 
correlates p, utilizado para o calculo da estatistica %Bardetv conforme discutimos quando da apresenta^ao da ex- 
pressao (10.9). 

A fim de estudarmos a adequa^ao global da analise fatorial, vamos analisar os outputs da Figura 10.17, que 
apresenta os resultados dos calculos correspondentes a estatistica KMO e ^Bartlett- Enquanto a primeira indica, 
com base no criterio apresentado no Quadro 10.1, que a adequa^ao global da analise fatorial e considerada me¬ 
dia (KMO = 0,737), a estatistica xlvdett = 192,335 (Sig. ZBzvdctt < para 6 graus de liberdade) permite-nos 
rejeitar, ao nivel de significance de 5% e com base nas hipoteses do teste de esfericidade de Bartlett, que a matriz 
de correlates p seja estatisticamente igual a matriz identidade I de mesma dimensao. Logo, podemos concluir 
que a analise fatorial e apropriada. 


KMO and Bartlett's Test 


Kaiser-Meyer-Olkin Measure of Sampling Adequacy. 

,737 

Bartlett's Test of Approx. Chi-Square 

192,335 

Sphericity 

df 

6 

Sig. 

,000 


Figura 10.17 Resultados da estatistica KMO e do teste de esfericidade de Bartlett. 
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Os valores das estatisticas KMO e ^Bartlett s ^° calculados, respectivamente, por meio das expressoes (10.3) e 
(10.9) apresentadas na segao 10.2.2, e sao exatamente iguais aos obtidos algebricamente na se^ao 10.2.6. 

Na sequencia, a Figura 10.18 apresenta os quatro autovalores da matriz de correlates p correspondentes a 
cada um dos fatores extraidos inicialmente, com os respectivos percentuais de variancia compartilhada pelas va¬ 
riaveis originais. 


Total Variance Explained 



Initial Eigenvalues 

Extraction Sums of Squared Loadings | 

Component 

Total 

% of Variance 

Cumulative % 

Total 

% of Variance 

Cumulative % 

1 

2,519 

62,975 

62,975 

2,519 

62,975 

62,975 

2 

1,000 

25,010 

87,985 

1,000 

25,010 

87,985 

3 

,298 

7,444 

95,428 




4 

,183 

4,572 

100,000 





Extraction Method: Principal Component Analysis. 

Figura 10.18 Autovalores e variancia compartilhada pelas variaveis originais para a forma<;ao de cada fator. 

Note que os autovalores sao exatamente iguais aos obtidos algebricamente na se^ao 10.2.6, de modo que: 

A 2 !+A 2 2 +...+A 2 = 2,519+1,000+0,298+0,183 = 4 

Como consideraremos na analise apenas os fatores cujos autovalores sejam maiores que 1, a parte direita da 
Figura 10.18 mostra o percentual de variancia compartilhada pelas variaveis originais para a forma^ao apenas 
desses fatores. Logo, de forma analoga ao apresentado naTabela 10.9, podemos afirmar que, enquanto 62,975% 
da variancia total sao compartilhados para a forma^ao do primeiro fator, 25,010% sao compartilhados para a for- 
ma^ao do segundo. Portanto, para a forma^ao desses dois fatores, a perda total de variancia das variaveis originais 
e igual a 12,015%. 

Extraidos dois fatores, a Figura 10.19 apresenta os scores fatoriais correspondentes a cada uma das variaveis pa- 
dronizadas para cada um desses fatores. 


Component Score Coefficient Matrix 



Component 


1 

2 

nota final de finanpas (0 a 
10) 

,355 

,007 

nota final de custos (0 a 

10) 

,371 

,049 

nota final de marketing (0 
a 10) 

-,017 

,999 

nota final de atuaria (0 a 

10) 

,364 

-,010 


Extraction Method: Principal Component 
Analysis. 

Figura 10.19 Scores fatoriais. 


Dessa forma, temos condi^oes de escrever as expressoes dos fatores F 1 e F 2 conforme segue: 

F u = 0,355 • ZfinangaSi + 0,371 • Zcustos { ~ 0,017 • Zmarketing { + 0,364 • Zatuaria { 

F 2i — 0,007 • ZfinangaSi + 0,049 • Zcustos { + 0,999 • Zmarketingi — 0,010 • Zatuaria { 

Note que as expressoes sao identicas as obtidas na segao 10.2.6 a partir da defin^ao algebrica dos scores fato¬ 
riais nao rotacionados. 

A Figura 10.20 apresenta as cargas fatoriais, que correspondem aos coeficientes de correla^ao de Pearson entre 
as variaveis originais e cada um dos fatores. Os valores presentes na Figura 10.20 sao iguais aos apresentados nas duas 
primeiras colunas daTabela 10.11. 
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Component Matrix 3 



Component \ 


1 

2 

nota final de finanpas (0 a 
10) 

,895 

,007 

nota final de custos (0 a 

10) 

,934 

,049 

nota final de marketing (0 
a 10) 
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,999 
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10) 

,918 

-,010 


Extraction Method: Principal Component 
Analysis. 

a. 2 components extracted. 

Figura 10.20 Cargas fatoriais. 

Em destaque para cada variavel esta a maior carga fatorial, e, portanto, podemos verificar que, enquanto as va- 
riaveis finangas, custos e atuaria apresentam maiores correlates com o primeiro fator, apenas a variavel marketing 
apresenta maior correlapao com o segundo fator. 

Conforme tambem discutimos na sepao 10.2.6, a somatoria dos quadrados das cargas fatoriais em coluna 
resulta no autovalor do correspondente fator, ou seja, representa o percentual de variancia compartilhada pelas 
quatro variaveis originais para a formapao de cada fator. Sendo assim, podemos verificar que: 

(0,895) 2 + (0,934) 2 + (-0,042) 2 + (0,918) 2 = 2,519 
(0,007) 2 + (0,049) 2 + (0,999)2 + (_0,010) 2 = 1,000 

Por outro lado, a somatoria dos quadrados das cargas fatoriais em linha resulta na comunalidade da respecti- 
va variavel, ou seja, representa o percentual de variancia compartilhada de cada variavel original nos dois fatores 
extraidos. Nesse sentido, podemos tambem verificar que: 

comunalidade^^ = (0,895) 2 + (0,007) 2 = 0,802 
comunalidade CMSto5 = (0,934) 2 + (0,049) 2 = 0,875 
cornunalidade mflrte ^ = (-0,042) 2 + (0,999) 2 = 1,000 
comunalidade^^ = (0,918) 2 + (-0,010) 2 = 0,843 

Nos outputs do SPSS tambem e apresentada a tabela de comunalidades, conforme mostra a Figura 10.21. 


Communalities 
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Extraction 

nota final de finanpas (0 a 
10) 

1,000 

,802 

nota final de custos (0 a 

10) 
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,875 
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nota final de atuaria (0 a 

10) 

1,000 

,843 


Extraction Method: Principal Component 
Analysis. 


Figura 10.21 Comunalidades. 
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O loading plot , que apresenta a posi^ao relativa de cada variavel em cada fator, com base nas respectivas cargas 
fatoriais, tambem e apresentado nos outputs, conforme mostra a Figura 10.22 (equivalente a Figura 10.8 da se^ao 
10.2.6), em que o eixo das abcissas representa o fator F u e o das ordenadas, o fator F 2 . 



Figura 10.22 Loading plot. 


Embora seja bastante clara a posi^ao relativa das variaveis em cada eixo, ou seja, as magnitudes das correlates en¬ 
tire cada uma delas e cada fator, para efeitos didaticos optamos por elaborar a rota^ao dos eixos, que, por vezes, pode 
facilitar a interpreta^ao dos fatores por propiciar melhor distribui^ao das cargas fatoriais das variaveis em cada fator. 

Assim, vamos novamente clicar em Analyze —» Dimension Reduction —» Factor... e, no botao 
Rotation..., selecionar a op^ao Varimax, conforme mostra a Figura 10.23. 



Ao clicarmos em Continue, retornaremos a caixa de dialogo principal da analise fatorial. No botao Scores..., 
vamos agora selecionar a op^ao Save as variables, conforme mostra a Figura 10.24, a fim de que os fatores ge- 
rados, agora rotacionados, sejam disponibilizados no banco de dados como novas variaveis. A partir desses fatores, 
sera elaborado o ranking de desempenho escolar dos alunos. 
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ft Factor Analysis: Factor Sco... u 

H Save as variables 

rftfethod--- ; -. 

© Regression 
©Bartlett 
© Anderson-Rubin 

B Display factor score coefficient matrix 

) 


Continue 


Cancel ] I ’Help 


Figura 10.24 Selegao da opgao para salvar os fatores como novas variaveis no banco de dados. 


Na sequencia, podemos clicar em Continue e em OK. 

As Figuras 10.25 a 10.29 mostram os outputs que apresentam diferenpas, em relapao aos anteriores, decorrentes 
da rotapao. Nesse sentido, nao sao novamente apresentados os resultados da matriz de correlates, da estatistica 
KMO, do teste de esfericidade de Bartlett e da tabela de comunalidades que, embora calculadas a partir das cargas 
rotacionadas, nao apresentam alterapoes em seus valores. 

A Figura 10.25 apresenta estas cargas fatoriais rotacionadas e, por meio delas, e possivel verificar, ainda que de 
forma tenue, certa redistribuipao das cargas das variaveis em cada fator. 


Rotated Component Matrix 3 



Component j 


1 

2 

nota final de finanpas (0 a 
10) 

,895 

-,019 

nota final de custos (0 a 

10) 

,935 

,021 

nota final de marketing (0 
a 10) 

-,013 

1,000 

nota final de atuaria (0 a 
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,917 

-,037 


Extraction Method: Principal Component 
Analysis. 

Rotation Method: Varim ax with Kaiser 
Normalization. 

a. Rotation converged in 3 iterations. 

Figura 10.25 Cargas fatoriais rotacionadas pelo metodo Varimax. 


Note que as cargas fatoriais rotacionadas da Figura 10.25 sao exatamente iguais as obtidas algebricamente na 
sepao 10.2.6, a partir das expressoes (10.35) a (10.40), e apresentadas na Tabela 10.16. 

O novo loading plot, construido a partir das cargas fatoriais rotacionadas e equivalente a Figura 10.9, encontra- 
-se na Figura 10.26. 
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Figura 10.26 Loading plot com cargas rotacionadas. 


O angulo de rota^ao calculado algebricamente na se^ao 10.2.6 tambem faz parte dos outputs do SPSS e pode 
ser encontrado na Figura 10.27. 

Component Transformation Matrix 



Extraction Method: Principal 
Component Analysis. 

Rotation Method: Vari max with 
Kaiser Normalization. 

Figura 10.27 Angulo de rota^ao (em radianos). 

Conforme discutimos, a partir das cargas fatoriais rotacionadas, podemos verificar que nao existem altera^oes 
nos valores das comunalidades das variaveis consideradas na analise, ou seja: 

comunalidade^^ = (0,895) 2 + (-0,019) 2 = 0,802 

comunalidade^^ = (0,935 ) 2 + (0,021 ) 2 = 0,875 

comunalidade m ^^ = (- 0,01 3) 2 + ( 1 , 000) 2 = 1,000 

comunalidade^^ = (0,917) 2 + (-0,037) 2 = 0,843 

Por outro lado, os novos autovalores podem ser obtidos da seguinte forma: 

( 0 , 895) 2 + ( 0 , 935)2 + (_ 0 , 013) 2 + ( 0 , 917) 2 = X \ = 2,518 

(- 0 , 019)2 + ( 0 , 021)2 + ( 1 , 000)2 + (- 0 , 037)2 = X \ = 1,002 
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A Figura 10.28 apresenta, em Rotation Sums of Squared Loadings, os resultados dos autovalores para os 
dois primeiros fatores rotacionados, com os respectivos percentuais de variancia compartilhada pelas quatro varia- 
veis originais. Os resultados estao de acordo com os apresentados naTabela 10.17. 


Total Variance Explained 
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Rotation Sums of Squared Loadings | 

Component 
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25,043 

87,985 

3 

,298 

7,444 

95,428 




■■ 



4 

,183 

4,572 

100,000 




1 




Extraction Method: Principal Component Analysis. 

Figura 10.28 Autovalores e variancia compartilhada pelas variaveis originais 
para a formapao dos dois fatores rotacionados. 


Em compara^ao com os resultados obtidos antes da rotapao, podemos perceber que, embora nao haja altera- 
£ao do compartilhamento de 87,985% da variancia total das variaveis originais para a forma^ao dos dois fatores 
rotacionados, a rotapao redistribuiu a variancia compartilhada pelas variaveis em cada fator. 

A Figura 10.29 apresenta os scores fatoriais rotacionados, a partir dos quais podem ser obtidas as expressoes 
dos novos fatores. 


Component Score Coefficient Matrix 



Component | 
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nota final de finanpas (0 a 
10) 

,355 
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Extraction Method: Principal Component 
Analysis. 

Rotation Method: Varimaxwith Kaiser 
Normalization. 

Component Scores. 

Figura 10.29 Scores fatoriais rotacionados. 

Portanto, podemos escrever as seguintes expressoes dos fatores rotacionados: 

F' u = 0,355 • ZfinangaSi + 0,372 • Zcustos i + 0,012 * Zmarketing { + 0,364 • Zatuaria { 

F' 2i — —0,004 • Zfinangas { + 0,038 • Zcustos { + 0,999 * Zmarketingi — 0,021 * Zatuaria { 

Ao elaborarmos o procedimento descrito, podemos verificar que sao geradas duas novas variaveis no banco 
de dados, chamadas pelo SPSS de FAC1_1 e FAC2_1, conforme mostra a Figura 10.30 para as 20 primeiras ob¬ 
servances. 
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Figura 10.30 Banco de dados com os valores de F\ (FAC1_1) e F\ ( FAC2J1 ) por observa^ao. 


Essas novas variaveis, que apresentam os valores dos dois fatores rotacionados para cada uma das observances 
do banco de dados, sao ortogonais entre si, ou seja, apresentam coeficiente de correla^ao de Pearson igual a 0. Isso 
pode ser verificado ao clicarmos em Analyze —> Correlate —> Bivariate.... Na caixa de dialogo que sera aber- 
ta, devemos inserir as quatro variaveis originais em Variables e selecionar as op^oes Pearson (em Correlation 
Coefficients) e Two-tailed (em Test of Significance), conforme mostra a Figura 10.31. 
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Figura 10.31 Caixa de dialogo para determina^ao do coeficiente de correlagao 
de Pearson entre os dois fatores rotacionados. 
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Ao clicarmos em OK, sera apresento o output da Figura 10.32, em que e possivel verificar que o coeficiente 
de correla^ao de Pearson entre os dois fatores rotacionados e igual a 0. 


Correlations 





REGR factor 

REGR factor 




score 1 for 

score 2 for 




analysis 1 

analysis 1 
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Figura 10.32 Coeficiente de correla<;ao de Pearson entre os dois fatores rotacionados. 

De acordo com o estudado nas se^oes 10.2.4 e 10.2.6, um pesquisador mais curioso podera ainda verificar 
que os scores fatoriais rotacionados podem ser obtidos por meio da estima^ao de dois modelos de regressao 
linear multipla, em que e considerado, como variavel dependente em cada um deles, determinado fator, e co- 
mo variaveis explicativas, as variaveis padronizadas. Os scores fatoriais serao os parametros estimados em cada 
modelo. 

Do mesmo modo, tambem e possivel verificar que as cargas fatoriais rotacionadas tambem podem ser obtidas 
por meio da estima^ao de quatro modelos de regressao linear multipla, em que e considerada, em cada um deles, 
determinada variavel padronizada como variavel dependente, e os fatores, como variaveis explicativas. Enquanto 
as cargas fatoriais serao os parametros estimados em cada modelo, as comunalidades serao os respectivos coefi- 
cientes de ajuste R 2 . Portanto, podem ser obtidas as seguintes expressoes: 


Zfinangas { = 0,895 * F' u - 0,019 • F' 2i + u i9 R 2 = 0,802 
Zcustos { — 0,935 * F\i + 0,021 • F 2i + u i9 R 2 = 0,875 
Zmarketingi = —0,013 • F' u + 1,000 • F' 2i + u h R 2 = 1,000 
Zatudria { = 0,917 • F' u — 0,037 * F 2i + u h R 2 = 0,843 

em que os termos u x representam fontes adicionais de varia 9 ao, alem dos fatores F\ e p 2 >P ara explicar o corn- 
portamento de cada variavel, sendo tambem chamados de termos de erro ou residuos. 

Caso surja o interesse em verificar esses fatos, devemos obter as variaveis padronizadas, clicando em Analyze 
—4 Descriptive Statistics —» Descriptives..., Ao selecionarmos todas as variaveis originais, devemos clicar 
em Save standardized values as variables. Embora esse procedimento especifico nao seja mostrado aqui, 
apos clicarmos em OK, as variaveis padronizadas serao geradas no proprio banco de dados. 

Com base nos fatores gerados, temos condi^oes, portanto, de elaborar o desejado ranking de desempenho es- 
colar. Para tanto, faremos uso do criterio descrito na segao 10.2.6, conhecido por criterio da soma ponderada e 
ordenamento, em que uma nova variavel e gerada a partir da multiplicagao dos valores de cada fator pelos res¬ 
pectivos percentuais de variancia compartilhada pelas variaveis originais. Neste sentido, esta nova variavel, que 
chamaremos de ranking , apresenta a seguinte expressao: 

rankings = 0,62942 • F' u + 0,25043 • F 2i 

em que os parametros 0,62942 e 0,25043 correspondem, respectivamente, aos percentuais de variancia compar¬ 
tilhada pelos dois primeiros fatores, conforme mostra a Figura 10.28. 
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Para que a variavel seja gerada no banco de dados, devemos clicar em Transform —> Compute Variable.... 
Em Target Variable, devemos digitar o nome da nova variavel ( ranking ) e, em Numeric Expression, devemos 
digitar a expressao de soma ponderada (FAC1_1*0.62942)+(FAC2_1*0.25043), conforme mostra a Figura 
10.33. Ao clicarmos em OK, a variavel ranking aparecera no banco de dados. 
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Figura 10.33 Cria^ao de nova variavel {ranking). 


Por fim, para elaborarmos o ordenamento da variavel ranking , devemos clicar em Data —> Sort Cases.... 
Alem de selecionarmos a op£ao Descending, devemos inserir a variavel ranking em Sort by, conforme mostra 
a Figura 10.34. Ao clicarmos em OK, as observagoes aparecerao ordenadas no banco de dados, do maior para o 
menor valor da variavel ranking , conforme mostra a Figura 10.35 para as 20 observa^oes com melhor desempe- 
nho escolar. 
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Figura 10.34 Caixa de dialogo para ordenamento das observances pela variavel ranking. 
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Figura 10.35 Banco de dados com o ranking de desempenho escolar. 


Podemos verificar que o ranking construido pelo criterio da soma ponderada e ordenamento aponta para 
Adelino como o estudante com melhor desempenho escolar no conjunto de disciplinas, seguido por Renata, 
Giulia, Felipe e Cecilia. 

Apresentados os procedimentos para aplica^ao da analise fatorial por componentes principals no SPSS, parti- 
remos para a elabora^ao da tecnica no Stata, seguindo o padrao adotado no livro. 


10.4. ANALISE FATORIAL POR COMPONENTES PRINCIPAL NO SOFTWARE STATA 

Apresentaremos agora o passo a passo para a elabora^ao de nosso exemplo no Stata Statistical Software®. 
Nosso objetivo, nesta se^ao, nao e discutir novamente os conceitos pertinentes a analise fatorial por componen¬ 
tes principals, porem propiciar ao pesquisador uma oportunidade de elaborar a tecnica por meio dos comandos 
desse software. A cada apresenta^ao de um output, faremos men^ao ao respectivo resultado obtido quando da apli- 
ca^ao da tecnica de forma algebrica e tambem por meio do SPSS. A reprodu^ao das imagens apresentadas nesta 
se^ao tern autoriza^ao da StataCorp LP®. 

Ja partiremos, portanto, para o banco de dados construido pelo professor a partir dos questionamentos feitos 
a cada um dos 100 estudantes. Este banco de dados encontra-se no arquivo NotasFatorial.dta e e exatamente 
igual ao apresentado parcialmente naTabela 10.5 da se$ao 10.2.6. 

Inicialmente, podemos digitar o comando desc, que possibilita a analise das caracteristicas do banco de dados, 
como a quantidade de observa^oes, a quantidade de variaveis e a descri^ao de cada uma delas. A Figura 10.36 
apresenta esse primeiro output do Stata. 


. desc 








obs: 

100 







vars: 

5 







size: 

3,100 

(99.9% of 

memory free) 






storage 

display 

value 





variable name 

type 

format 

label 

variable label | 

estudante 

strll 

%lls 






finan^as 

float 

%9. If 


nota 

final 

de 

finangas (0 a 10) 

custos 

float 

%9. If 


nota 

final 

de 

custos (0 a 10) 

marketing 

float 

%9. If 


nota 

final 

de 

marketing (0 a 10) 

atuaria 

_ 

float 

%9. If 


nota 

final 

de 

atuaria (0 a 10) 

|| Sorted by: || 


Figura 10.36 Descrigao do banco de dados NotasFatorial.dta. 











Analise Fatorial por Componentes Principals 421 


O comando pwcorr . . ., sig gera os coeficientes de correla^ao de Pearson entre cada par de variaveis, com 
os respectivos niveis de significance. Vamos, portanto, digitar o seguinte comando: 

pwcorr finangas custos marketing atuaria, sig 

A Figura 10.37 apresenta 


Figura 10.37 Coeficientes de correla^ao de Pearson e respectivos niveis de significance. 

Os outputs da Figura 10.37 mostram que as correlates entre a variavel marketing e cada uma das demais va¬ 
riaveis sao relativamente baixas e nao estatisticamente significantes, ao nivel de significance de 5%. Por outro 
lado, as demais variaveis apresentam, entre si, correlates elevadas e estatisticamente significantes a esse nivel 
de significance, o que representa um primeiro indicio de que a analise fatorial podera agrupa-las em determi- 
nado fator, sem que haja perda substancial de suas variances, enquanto a variavel marketing podera apresentar 
alta correla^ao com outro fator. Essa figura esta em conformidade com o apresentado naTabela 10.6 da se$ao 
10.2.6 e tambem na Figura 10.16, quando da elabora^ao da tecnica no SPSS (se^ao 10.3). 

A adequa^ao global da analise fatorial pode ser avaliada pelos resultados da estatistica KMO e do teste de es- 
fericidade de Bartlett, que podem ser obtidos por meio do comando factor test. Logo, vamos digitar: 

factortest finangas custos marketing atuaria 

Os outputs gerados encontram-se na Figura 10.38. 

. factortest finangas custos marketing atuaria 

Determinant of the correlation matrix 
Det = 0.137 

Bartlett test of sphericity 

Chi-square = 192.335 

Degrees of freedom = 6 , 

p-value = 0.000 

HO: variables are not intercorrelated 


o output gerado. 

pwcorr finangas custos marketing atuaria, sig 

| finangas custos market~g atuaria 


finangas 

1.0000 




custos 

0.7558 

0.0000 

1.0000 



marketing 

-0.0297 

0.7695 

0.0031 

0.9759 

1.0000 


atuaria 

0.7109 

0.0000 

0.8091 

0.0000 

-0.0443 

0.6617 

1.0000 


I Kaiser-Meyer-Olkin Measure of Sampling Adequacy I 
KMO = 0.737 1| 

Figura 10.38 Resultados da estatistica KMO e do teste de esfericidade de Bartlett. 

Com base no resultado da estatistica KMO, a adequa^ao global da analise fatorial pode ser considerada me¬ 
dia. Porem, mais importante que essa informa^ao e o resultado do teste de esfericidade de Bartlett. A partir do 
resultado da estatistica ^Bartlett* podemos afirmar, para o nivel de significance de 5% e 6 graus de liberdade, que a 
matriz de correlates de Pearson e estatisticamente diferente da matriz identidade de mesma dimensao, visto que 
Bartlett = 192,335 (% 2 calculado para 6 graus de liberdade) e Prob. ^Bartlett (p-value) < 0,05. Note que os resulta¬ 
dos dessas estatisticas sao condizentes com os calculados algebricamente na se^ao 10.2.6 e tambem apresentados 
na Figura 10.17 da se^ao 10.3. A Figura 10.38 ainda apresenta o valor do determinante da matriz de correlates, 
utilizado para o calculo da estatistica j^Bardett- 

O Stata ainda permite que sejam obtidos os autovalores e autovetores da matriz de correlates. Para, tanto, 
devemos digitar o seguinte comando: 

pea finangas custos marketing atuaria 
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A Figura 10.39 apresenta esses autovalores e autovetores, exatamente iguais aos calculados algebricamente na 
se^ao 10.2.6. Como ainda nao elaboramos o procedimento de rota^ao dos fatores gerados, podemos verificar que 
os percentuais de variancia compartilhada pelas variaveis originais para a forma^ao de cada fator correspondem 
aos apresentados naTabela 10.9. 


I . pea finangas custos marketing atuaria 



1 Principal components/correlation 


Number of obs 

= 100 




Number of comp. 

= 4 

II 



Trace 

= 4 

|| Rotation: (unrotated = principal) 


Rho 

= 1.0000 

Component 

Eigenvalue Difference 

Proportion 

Cumulative 

Compl 

2.51899 

1.51859 

0.6297 

0.6297 

Comp2 

1.0004 

.702642 

0.2501 

0.8798 

Comp3 

.297753 

.114889 

0.0744 

0.9543 

Comp4 

.182864 


0.0457 

1.0000 

Principal components (eigenvectors) 

Variable 

Compl Comp2 

Comp 3 

Comp4 j Unexplained j| 

finangas 

0.5641 0.0068 

0.8008 

0.2012 j 

0 

custos 

0.5887 0.0487 

-0.2201 

-0.7763 | 

0 

marketing 

-0.0267 0.9987 

-0.0003 

0.0425 j 

0 

atuaria 

0.5783 -0.0101 

-0.5571 

0.5959 j 

0 

I 1 . 1 


Figura 10.39 Autovalores e autovetores da matriz de correlates. 


Apresentados estes primeiros outputs, podemos elaborar a analise fatorial por componentes principals propria- 
mente dita, digitando o seguinte comando, cujos resultados sao apresentados na Figura 10.40. 

factor finangas custos marketing atuaria, pcf 

em que o termo pcf se refere ao metodo de componentes principals (em ingles , principal-components factor method). 

Enquanto a parte superior da Figura 10.40 apresenta novamente os autovalores da matriz de correlates com 
os respectivos percentuais de variancia compartilhada das variaveis originais, ja que o pesquisador p ode op tar por 
nao fazer uso do comando pea, a parte inferior da figura mostra as cargas fatoriais, que representam as correlates 
entre cada variavel e os fatores que apresentam apenas autovalores maiores que 1. Portanto, podemos perceber 
que o Stata considera, automaticamente, o criterio da raiz latente (criterio de Kaiser) para a escolha da quantida- 
de de fatores. Se, por alguma razao, o pesquisador op tar por extrair uma quantidade de fatores levando em conta 
um autovalor menor, a fim de que sejam extraidos mais fatores, devera digitar o termo mineigen (#) ao final do 
comando factor, em que # sera um numero correspondente ao autovalor a partir do qual fatores serao extraidos. 


I . factor finan<?as 

I (obs=100) 

custos marketing atuaria, pcf 




1 Factor 

analysis/correlation 

Nvimber of obs 

= 

100 

1 Method: principal-component factors 

Retained factors 

= 

2 

1 Rotation: (unrotated) 

Number of params 

= 

6 


Factor 

Eigenvalue Difference 

Proportion Cumulative 



Factorl 

2.51899 1.51859 

0.6297 

0.6297 



Factor2 

1.00040 0.70264 

0.2501 

0.8798 



Factor3 

0.29775 0.11489 

0.0744 

0.9543 



Factor4 

0.18286 

0.0457 

1.0000 


LR 

test: independent vs. saturated: chi2(6) = 

194.32 Prob>chi2 = 0.0000 1 

Factor 

loadings (pattern matrix) and unique variances 




Variable 

Factorl Factor2 | Uniqueness 




finangas 

0.8953 0.0068 | 0.1983 





custos 

0.9343 0.0487 j 0.1246 





marketing 

-0.0424 0.9989 j 0.0003 





atuaria 

0.9179 -0.0101 | 0.1573 











Figura 10.40 Outputs da analise fatorial por componentes principais no Stata. 
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As cargas fatoriais apresentadas na Figura 10.40 sao iguais as das duas primeiras colunas daTabela 10.11 da 
sepao 10.2.6, e da Figura 10.20 da sepao 10.3. Por meio delas, podemos verificar que, enquanto as variaveis 
finangas , custos e atuaria apresentam elevadas correlates com o primeiro fator, a variavel marketing apresenta 
forte correlapao com o segundo. Alem disso, na matriz de cargas fatoriais ainda e apresentada uma coluna cha- 
mada Uniqueness, ou exclusividade, cujos valores representam, para cada variavel, o percentual de variancia 
perdida para compor os fatores extraidos, ou seja, corresponde a (1 — comunalidade) de cada variavel. Sendo 
assim, temos que: 

uniqueness fimnfas = 1- [(0,8953) 2 +(0,0068) 2 ] = 0,1983 
uniqueness cuslos = 1 — [(0,9343) 2 +(0,0487) 2 ] = 0,1246 
uniqueness marketing = 1 — [(—0,0424) 2 + (0,9989) 2 ] = 0,0003 
uniqueness atuiria =1—[(0,9179) 2 +(—0,0101) 2 ] = 0,1573 

Logo, pelo fato de a variavel marketing apresentar baixas correlates com cada um das demais variaveis ori¬ 
ginal, acaba por possuir elevada correlapao de Pearson com o segundo fator. Isso faz seu valor de uniqueness ser 
muito baixo, visto que seu percentual de variancia compartilhada com o segundo fator e quase igual a 100%. 

Sabendo que sao extraidos dois fatores, vamos, neste momento, partir para a rotapao por meio do metodo 
Varimax. Para tanto, devemos digitar o seguinte comando: 

rotate, varimax horst 

em que o termo horst define o angulo de rotapao a partir das cargas fatoriais padronizadas. Esse procedimento es- 
ta de acordo com o elaborado algebricamente na sepao 10.2.6. Os outputs gerados encontram-se na Figura 10.41. 


. rotate, varimax horst 

Factor analysis/correlation Number of obs = 100 

Method: principal-component factors Retained factors = 2 

Rotation: orthogonal varimax (Kaiser on) Number of params = 6 


Factor | 

Variance 

Difference 

Proportion 

Cumulative 

Factorl | 

2.51768 

1.51598 

0.6294 

0.6294 

Factor2 j 

1.00170 

• 

0.2504 

0.8798 


LR test: independent vs. saturated: chi2(6) = 194.32 Prob>chi2 = 0.0000 


Rotated factor loadings (pattern matrix) and unique variances 


Variable 

| Factorl 

Factor2 j 

| Uniqueness 

finanqas 

0.8951 

-0.0195 

0.1983 

custos 

0.9354 

0.0213 

0.1246 

marketing 

-0.0131 

0.9997 

0.0003 

atuaria 

0.9172 

-0.0370 

0.1573 


Factor rotation matrix 

| Factorl 

Factor2 

Factorl | 0.9996 

Factor2 j 0.0293 

-0.0293 

0.9996 


Figura 10.41 Rota^ao dos fatores pelo metodo Varimax. 


A partir da Figura 10.41, podemos verificar, conforme ja discutimos, que o percentual de variancia compar- 
tilhada por todas as variaveis para a forma^ao dos dois fatores e igual a 87,98%, embora o autovalor de cada fator 
rotacionado seja diferente do obtido anteriormente. O mesmo pode ser dito em rela^ao aos valores de unique¬ 
ness de cada variavel, mesmo sendo diferentes as cargas fatoriais rotacionadas em rela^ao as correspondentes nao 
rotacionadas, visto que o metodo Varimax maximiza as cargas de cada variavel em determinado fator. A Figura 
10.41 ainda mostra, ao final, o angulo de rota^ao.Todos esses outputs sao identicos aos calculados na se^ao 10.2.6 
e tambem apresentados quando da elabora^ao da tecnica no SPSS, nas Figuras 10.25,10.27 e 10.28. 
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Dessa forma, podemos escrever que: 

uniqueness fmanfas =\- [(0,8951) 2 + (-0,0195) 2 ] = 0,1983 
uniqueness custos = 1- [(0,9354) 2 + (0,0213) 2 ] = 0,1246 
uniqueness marketing =\- [(-0,0131) 2 +(0,9997) 2 ] = 0,0003 
uniqueness atuiria = 1- [(0,9172) 2 +(-0,0370) 2 ] = 0,1573 

e que: 

(0,8951) 2 +(0,9354) 2 +(-0,0131) 2 +(0,9172) 2 = X' 2 =2,51768 
(-0,0195) 2 +(0,0213) 2 +(0,9997) 2 +(-0,0370) 2 = X\= 1,00170 


Caso o pesquisador deseje, o Stata ainda permite que sejam comparadas, em uma mesma tabela, as cargas fa- 
toriais rotacionadas com aquelas obtidas antes da rota^ao. Para tanto, e necessario digitar o seguinte comando, 
apos a elabora^ao da rota^ao: 

estat rotatecompare 

Os outputs gerados encontram-se na Figura 10.42. 


. estat rotatecompare 

Rotation matrix -- orthogonal varimax (Kaiser on) 


Variable | 

Factorl 

Factor2 




Factorl | 

0.9996 

-0.0293 

Factor2 j 

0.0293 

0.9996 

Factor loadings 



j Rotated 

[ Unrotated 

Variable 

Factorl 

Factor2 

| Factorl 

Factor2 

finangas 

0.8951 

-0.0195 

0.8953 

0.0068 

custos 

0.9354 

0.0213 

0.9343 

0.0487 

marketing 

-0.0131 

0.9997 

-0.0424 

0.9989 

atuaria 

0.9172 

-0.0370 

0.9179 

-0.0101 


Figura 10.42 Comparagao das cargas fatorials rotacionadas e nao rotacionadas. 


O loading plot das cargas fatoriais rotacionadas pode ser obtido, neste momento, por meio da digita^ao do co¬ 
mando loadingplot. Esse grafico, que corresponde aos apresentados nas Figuras 10.9 e 10.26, encontra-se na 
Figura 10.43. 


Factor loadings 


marketing 


Rotation: orthogonal varimax 
Method: principal-component factors 


.4 

Factor 1 


finan?as Oq 


Figura 10.43 Loading plot com cargas rotacionadas. 
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Elaborados esses procedimentos, o pesquisador pode desejar criar duas novas variaveis no banco de dados, 
correspondentes aos fatores rotacionados obtidos pela analise fatorial. Nesse sentido, e preciso digitar o seguinte 
comando: 

predict fl f2 

em que f 1 e f2 sao os nomes das variaveis correspondentes, respectivamente, ao primeiro e ao segundo fatores. 
Ao digitarmos o comando, alem de serem criadas as duas novas variaveis no banco de dados, sera tambem gerado 
um output como o da Figura 10.44, em que sao apresentados os scores fatoriais rotacionados. 


II . predict fl f2 



| (regression scoring 

assumed) 


I Scoring coefficients (method 

= regression; based on varimax rotated factors) 

Variable | 

Factorl 

Factor2 

finangas | 

0.35548 

-0.00364 

custos j 

0.37219 

0.03780 

marketing j 

0.01247 

0.99861 

atuaria j 

0.36395 

-0.02078 


Figura 10.44 Geragao dos fatores no banco de dados e scores fatoriais rotacionados. 

Os resultados apresentados na Figura 10.44 sao equivalentes aos do SPSS (Figura 10.29). Alem disso, e possi- 
vel tambem verificar que os dois fatores gerados sao ortogonais, ou seja, apresentam coeficiente de correla^ao de 
Pearson igual a 0. Para tanto, vamos digitar: 

estat common 

que fornece o output da Figura 10.45. 



Figura 10.45 Coeficiente de correla<;ao de Pearson entre os dois fatores rotacionados. 


Apenas para fins didaticos, iremos agora obter os scores e as cargas fatoriais rotacionados a partir de modelos de re- 
gressao linear multipla. Para tanto, vamos inicialmente gerar, no banco de dados, as variaveis padronizadas por meio 
do procedimento Zscores , a partir de cada uma das variaveis originais, digitando a seguinte sequencia de comandos: 

egen zfinangas = std(finangas) 

egen zcustos = std(custos) 

egen zmarketing = std(marketing) 

egen zatuaria = std(atuaria) 

Feito isso, podemos digitar os dois seguintes comandos, que representam dois modelos de regressao linear 
multipla, em que cada um deles apresenta determinado fator como variavel dependente e as variaveis padroni¬ 
zadas como variaveis explicativas. 

reg fl zfinangas zcustos zmarketing zatuaria 
reg f2 zfinangas zcustos zmarketing zatuaria 

Os resultados desses modelos encontram-se na Figura 10.46. 
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| . reg fl zfinangas zcustos 

zmarketing 

zatuaria 




Source 

1 

ss 

df 


MS 


Number of obs 

= 100 

Model 

Residual 

! 

98.9999996 

0 

4 

95 

24. 

7499999 

0 


Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 1.0000 

Total 

i 

98.9999996 

99 

.999999996 


= 0 

fl 

i 

Coef. 

Std. 

Err. 

t 

p>it| 

[95% Conf. 

Interval] 

zf inanqias 
zcustos 
zmarketing 
zatuaria 
_cons 

i 

i 

i 

i 

i 

.3554795 

.3721907 

.0124719 

.3639452 

1.96e-09 


• 

• 




1 . reg f2 zfinangas zcustos 

zmarketing 

zatuaria 




Source 

i 

SS 

df 


MS 


Number of obs 
F ( 4, 95) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 100 

Model 

Residual 

i 

i 

99.0000001 

0 

4 

95 


24.75 

0 


= 1.0000 
— i nnnn 

Total 

i 

99.0000001 

99 


1 


— 1.uuuu 

= 0 

f 2 

i 

Coef. 

Std. 

Err. 

t 

p>|t| 

[95% Conf. 

Interval] 

zfinangas 
zcustos 
zmarketing 
zatuaria 
_cons 

i 

i 

i 

i 

i 

-.0036389 
.0377955 
.9986053 
-.020781 

9.08e-11 







I 1 "■ ■ ■ ■ ..-.— - i 


Figura 10.46 Outputs dos modelos de regressao linear multipla com fatores como variaveis dependentes. 


Note, a partir da analise da Figura 10.46, que os parametros estimados em cada modelo correspondem aos sco¬ 
res fatoriais rotacionados para cada variavel, de acordo com o ja apresentado na Figura 10.44. Assim, como todos 
os parametros do intercepto sao praticamente iguais a 0, podemos escrever que: 

F' u = 0,3554795 • ZfinangaSi + 0,3721907 • Zcustos { + 0,0124719 • Zmarketingj + 0,3639452 • Zatudriq 

F' 2 i = -0,0036389 • Zfmangas t + 0,0377955 • Zcustos { + 0,9986053 • Zmarketingi — 0,020781 • Zatudria { 

Obviamente, como as quatro variaveis compartilham variancias para a forma^ao de cada fator, os coeficientes 
de ajuste R 2 de cada modelo sao iguais a 1. 

Ja para a obten^ao das cargas fatoriais rotacionadas, devemos digitar os quatro seguintes comandos, que re- 
presentam quatro modelos de regressao linear multipla, em que cada um deles apresenta determinada variavel 
padronizada como variavel dependente, e os fatores rotacionados, como variaveis explicativas. 

reg zfinangas fl f2 

reg zcustos fl f2 

reg zmarketing fl f2 

reg zatuaria fl f2 

Os resultados desses modelos encontram-se na Figura 10.47. 

Note agora, a partir da analise dessa figura, que os parametros estimados em cada modelo correspondem as 
cargas fatoriais rotacionadas para cada fator, de acordo com o ja apresentado na Figura 10.41. Nesse sentido, co¬ 
mo todos os parametros do intercepto sao praticamente iguais a 0, podemos escrever que: 

Zfinangas i =0,895146 0,0194694 • F' 2i +«., R 2 — 1—uniqueness = 0,8017 

Zcustos { = 0,935375^ + 0,0212916 F 2i +w.,R 2 uniqueness- 0,8754 

Zmarketing i =—0,013053 *F^ + 0,9997495 -F' 2i +u { , R 2 =1— uniqueness — 0,9997 

Zatuariq =0,917223 *F|.-0,0370175 -F' 2i +u { , R 2 = 1-uniqueness = 0,8427 
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em que os termos u x representam fontes adicionais de varia^ao, alem dos fatores F\ e para explicar o com- 
portamento de cada variavel, visto que outros dois fatores com autovalores menores que 1 tambem poderiam ter 
sido extraidos. Os coeficientes de ajuste R 2 de cada modelo diferentes de 1 correspondem aos valores das comu- 
nalidades de cada variavel, ou seja, a (1 - uniqueness). 


. reg zfinan^as £1 £2 


Source | SS df MS Number of obs = 100 


Model 79.3648681 

Residual 19.6351317 

2 

97 

39.682434 

.202424038 


r v ^; 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 0.0000 
= 0.8017 

* 0.7976 

= .44992 

Total | 

j 98.9999997 

99 

.999999997 

zfinan 9 as 

Coef. 

Std. 

Err. t 

p>|t| 

[95% Conf. 

Interval] 

fl 

.895146 

.0452182 19.80 

0.000 

.8054003 

.9848916 

f 2 

-.0194694 

.0452182 -0.43 

0.668 

-.109215 

.0702763 

cons 

-4.42e-09 

.0449916 -0.00 

1.000 

-.0892958 

.0892958 


. reg zcustos fl f2 


Source | 

SS 

df 

MS 

Model | 

86.662589 

2 

43.3312945 

Residual j 

12.3374069 

97 

.127189762 

Total I 

98.9999959 

99 

.999999958 


Number of obs = 100 
F ( 2, 97) = 340.68 
Prob > F = 0.0000 
R-squared = 0.8754 
Adj R-squared = 0.8728 
Root MSE = .35664 


zcustos 

Coef. 

Std. Err. 

t 

p>|t| 

[95% Conf. 

Interval] 

fl 1 

.935375 

.0358433 

26.10 

0.000 

.8642359 

1.006514 

f 2 1 

.0212916 

.0358433 

0.59 

0.554 

-.0498475 

.0924307 

cons 

-3.38e-09 

.0356637 

-0.00 

1.000 

-.0707825 

.0707825 


. reg zmarketing fl f2 


Source | 

SS 

df 

MS 

Number of obs 
F( 2, 97) 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 

100 

Model | 
Residual j 

98.9672733 

.032725878 

2 

97 

49.4836367 

.00033738 

= 

0.0000 

0.9997 

0.9997 

.01837 

Total 1 

98.9999992 

99 

.999999992 

= 


zmarketing 

| Coef. 

Std. Err. 

t 

p>|t| 

[95% Conf. 

Interval] 

fl 

-.013053 

.001846 

-7.07 

0.000 

-.0167169 

-.0093892 

f 2 

.9997495 

.001846 

541.56 

0.000 

.9960856 

1.003413 

_cons 

7.10e-ll 

.0018368 

0.00 

1.000 

-.0036455 

.0036455 


. reg zatuaria fl f2 


Source | 

SS 

df 

MS 

Model | 

83.4241641 

2 

41.7120821 

Residual j 

15.5758359 

97 

.160575627 

Total 1 

99 

99 

1 


Number of obs = 100 
F( 2, 97) = 259.77 
Prob > F = 0.0000 
R-squared = 0.8427 
Adj R-squared = 0.8394 
Root MSE = .40072 


zatuaria | 

Coef. 

Std. Err. 

t 

p>lt| 

[95% Conf. 

Interval] 

fi i 

.917223 

.0402738 

22.77 

0.000 

.8372907 

.9971553 

f2 I 

- .0370175 

.0402738 

-0.92 

0.360 

-.1169498 

.0429147 

_cons | 

2.40e-09 

.0400719 

0.00 

1.000 

- .0795316 

.0795316 


Figura 10.47 Outputs dos modelos de regressao linear multipla com variaveis padronizadas como variaveis dependentes. 


Embora o pesquisador possa optar por nao elaborar os modelos de regressao linear multipla quando da apli- 
ca^ao da analise fatorial, visto que se trata apenas de procedimento de verifica^ao, acreditamos que seu carater 
didatico tern fundamental importancia para o completo entendimento da tecnica. 

A partir dos fatores rotacionados extraidos (variaveis fl tf2), podemos definir o desejado ranking de desem- 
penho escolar. Assim como elaborado quando da aplica^ao da tecnica no SPSS, faremos uso do criterio descrito 
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na se^ao 10.2.6, conhecido por criterio da soma ponderada e ordenamento, em que uma nova variavel e gerada 
a partir da multiplica^ao dos valores de cada fator pelos respectivos percentuais de variancia compartilhada pelas 
variaveis originais.Vamos digitar o seguinte comando: 

gen ranking = f1*0.6294+f2*0.2504 

em que os termos 0 . 6294 e 0 . 2504 correspondem, respectivamente, aos percentuais de variancia compartilhada 
pelos dois primeiros fatores, conforme mostra a Figura 10.41. A nova variavel gerada no banco de dados chama- 
-se ranking. Na sequencia, podemos ordenar as observances, do maior para o menor valor da variavel ranking, di- 
gitando o seguinte comando: 

gsort -ranking 

Na sequencia, podemos listar, a titulo de exemplo, o ranking de desempenho escolar dos 20 melhores alunos, 
com base no comportamento conjunto das notas finais das quatro disciplinas. Para tanto, podemos digitar o se¬ 
guinte comando: 

list estudante ranking in 1/20 

A Figura 10.48 mostra o ranking dos 20 estudantes mais bem posicionados. 


. list estudante ranking in 1/20 



estudante 

ranking 

1 . 

Adelino 

1.627614 

2 . 

Renata 

1.470754 

3. 

Giulia 

1.363804 

4. 

Felipe 

1.361453 

5. 

Cecilia 

1.345679 

6. 

Claudio 

1.341783 

7. 

Robson 

1.134482 

8. 

Cida 

1.076301 

9. 

Gustavo 

1.07536 

10. 

Pietro 

.8771787 

11. 

Gisele 

_ 

.8752302 

12. 

Rodrigo 

.8595989 

13. 

Ovidio 

.8103284 

14. 

Kamal 

.7905102 

15. 

Cristiane 

.763818 

16. 

Rodolfo 

.7176383 

17. 

Horacio 

.6466671 

18. 

Ana Lucia 

.6323633 

19. 

Pedro 

.5996711 

20. 

Adriano 

.5715502 


Figura 10.48 Ranking de desempenho escolar dos 20 melhores estudantes. 


10.5. CONSIDERAgOES FINAIS 

Muitas sao as situacoes em que o pesquisador deseja agrupar variaveis em um ou mais fatores, verificar a va- 
lidade de constructos previamente estabelecidos, criar fatores ortogonais para posterior uso em tecnicas multiva- 
riadas confirmatorias que necessitam de ausencia de multicolinearidade ou elaborar rankings por meio da criaf ao 
de indicadores de desempenho. Nessas situates, os procedimentos relacionados a analise fatorial sao bastante 
indicados, sendo o mais utilizado o conhecido como componentes principais. 

A analise fatorial permite, portanto, que sejam aprimorados os processos decisorios com base no comporta¬ 
mento e na rela^ao de interdependence entre variaveis quantitativas que apresentam relativa intensidade de cor- 
relafao. Como os fatores gerados a partir das variaveis originais tambem sao variaveis quantitativas, os outputs da 
analise fatorial podem servir de inputs em outras tecnicas multivariadas, como analise de agrupamentos. A propria 
estratifica^ao de cada fator em faixas pode permitir que seja avaliada a associafao entre essas faixas e as categorias 
de outras variaveis qualitativas, por meio da analise de correspondence. 

O uso dos fatores em tecnicas multivariadas confirmatorias tambem pode fazer sentido quando o pesquisador 
tem a inten?ao de elaborar diagnostics sobre o comportamento de determinada variavel dependente e utiliza 
os fatores extraidos como variaveis explicativas, fato que elimina eventuais problemas de multicolinearidade por 
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serem os fatores ortogonais. A propria considera^ao de determinada variavel qualitativa obtida com base na es- 
tratifica^ao em faixas de determinado fator pode ser utilizada, por exemplo, em um modelo de regressao logistica 
multinomial, o que permite a elabora^ao de um diagnostico sobre as probabilidades que cada observa^ao tern de 
pertencer a cada faixa, em fun^ao do comportamento de outras variaveis explicativas nao inicialmente conside- 
radas na analise fatorial. 

Seja qual for o objetivo principal da aplica^ao da tecnica, a analise fatorial pode propiciar a colheita de bons e 
interessantes frutos de pesquisa uteis a tomada de decisao. Sua elabora^ao deve ser sempre feita por meio do cor- 
reto e consciente uso do software escolhido para a modelagem, com base na teoria subjacente e na experiencia 
e intui^ao do pesquisador. 

10.6. EXERCICIOS 

1. A partir de uma base de dados que contem determinadas variaveis dos clientes (pessoas fisicas), os analistas do 
departamento de CRM (Customer Relationship Management) de um banco elaboraram uma analise fatorial por 
componentes principais, com o intuito de estudar o comportamento conjunto dessas variaveis para, na sequencia, 
propor a cria^ao de um indicador de perfil de investimento. As variaveis utilizadas para a elabora^ao da modela¬ 
gem foram: 


Variavel 

Descri^ao 

idade 

Idade do cliente i (anos). 

rfixa 

Percentual de recursos aplicado em fundos de 
renda fixa (%). 

vvariavel 

Percentual de recursos aplicado em fundos de 
renda variavel (%). 

pessoas 

Quantidade de pessoas que mora na 
residencia. 


Em determinado relatorio gerencial, os analistas apresentaram as cargas fatoriais (coeficientes de correla^ao 
de Pearson) entre cada variavel original e os dois fatores extraidos por meio do criterio da raiz latente ou 
criterio de Kaiser. Essas cargas fatoriais encontram-se na tabela a seguir: 


Variavel 

Fator 1 

Fator 2 

idade 

0,917 

0,047 

rfixa 

0,874 

0,077 

vvariavel 

-0,844 

0,197 

pessoas 

0,031 

0,979 


Pede-se: 

a. Quais os autovalores correspondentes aos dois fatores extraidos? 

b. Quais os percentuais de variancia compartilhada por todas as variaveis para a composi^ao de cada fator? 
Qual o percentual total de variancia perdida das quatro variaveis para a extra^ao desses dois fatores? 

c. Para cada variavel, qual o percentual de variancia compartilhada para a forma^ao dos dois fatores (comu- 
nalidade)? 

d. Qual a expressao de cada variavel padronizada em fun^ao dos dois fatores extraidos? 

e. Elabore o loading plot a partir das cargas fatoriais. 

f. Interprete os dois fatores com base na distribui^ao das cargas de cada variavel. 


2. Um estudioso do comportamento de indicadores sociais e economicos de na^oes deseja investigar a rela^ao 
eventualmente existente entre variaveis relacionadas com corrup^ao, violencia, renda e educa^ao, e, para tanto, 
levantou dados de 50 paises, considerados desenvolvidos ou emergentes, em dois anos consecutivos. Os dados 
encontram-se nos arquivos IndicadorPaises.sav e IndicadorPaises.dta, que apresentam as seguintes variaveis: 
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Variavel 

Periodo 

Descri^ao 

pais 


Variavel string que identifica o pais i. 

cpit 

ano 1 

Corruption Perception Index, que corresponde a percep^ao dos cidadaos 
em rela^ao ao abuso do setor publico sobre os beneficios privados 
de uma na^ao, cobrindo aspectos administrativos e politicos. Quanto 
menor o indice, maior a percep^ao de corrupgao no pais (Fonte: 
Transparency Internacional). 

cpi2 

ano 2 

violencia i 

ano 1 

Quantidade de assassinatos a cada 100.000 habitantes ( Fontes: 

Organiza^ao Mundial da Saude, Escritorio das Na^oes Unidas para 

Drogas e Crime e GIMD Global Burden of Injuries). 

violencia2 

ano 2 

pib_capita 1 

ano 1 

PIB per capita em US$> ajustado pela infla^ao, com ano base 2000 
(Fonte: Banco Mundial). 

pib_capita2 

ano 2 

escol1 

ano 1 

Quantidade media de anos de escolaridade por pessoas com mais de 

25 anos, incluindo ensinos primario, secundario e superior (Fonte: 

Institute for Health Metrics and Evaluation). 

escol2 

ano 2 


A fim de que seja criado, para cada ano, um indicador socioeconomico que de origem a um ranking de 

paises, o estudioso decide elaborar uma analise fatorial por componentes principais a partir das variaveis de 

cada periodo. Com base nos resultados obtidos, pede-se: 

a. Por meio da estatistica KMO e do teste de esfericidade de Bartlett, e possivel afirmar que a analise fatorial 
por componentes principais e apropriada para cada um dos anos de estudo? No caso do teste de esferici¬ 
dade de Bartlett, utilize o nivel de significance de 5%. 

b. Quantos fatores sao extraidos na analise em cada um dos anos, levando-se em considera^ao o criterio 
da raiz latente? Qual(is) o(s) autovalor(es) correspondente(s) ao(s) fator(es) extraido(s) em cada ano, bem 
como o(s) percentual(is) de variancia compartilhada por todas as variaveis para a composi^ao desse(s) 
fator(es)? 

c. Para cada variavel, qual a carga fatorial e o percentual de variancia compartilhada para a forma^ao do(s) 
fator(es) em cada ano? Ocorreram altera^oes nas comunalidades de cada variavel de um ano para o outro? 

d. Qual(is) a(s) expressao(oes) do(s) fator(es) extraido(s) em cada ano, em fun^ao das variaveis padroni- 
zadas? De um ano para o outro, ocorreram altera^oes nos scores fatoriais das variaveis em cada fator? 
Discuta a importance de se elaborar uma analise fatorial especifica em cada ano para a cria^ao de indi- 
cadores. 

e. Considerando o fator principal extraido como indicador socioeconomico, elabore o ranking dos pai¬ 
ses a partir desse indicador em cada um dos anos. Houve altera^oes de um ano para o outro nas po- 
si^oes relativas dos paises no ranking ? 

3. O gerente-geral de uma loja pertencente a uma rede de drogarias deseja conhecer a percep^ao dos consumi- 
dores em rela^ao a oito atributos, descritos a seguir: 


Atributo (Variavel) 

Descri^ao 

sortimento 

Percep^ao sobre o sortimento de produtos. 

reposigao 

Percepgao sobre a qualidade e rapidez na reposigao dos produtos. 

layout 

Percep^ao sobre o layout da loja. 

conforto 

Percepgao sobre conforto termico, acustico e visual na loja. 

limpeza 

Percep^ao sobre a limpeza geral da loja. 

atendimento 

Percep^ao sobre a qualidade do atendimento prestado. 

prego 

Percep^ao sobre o nivel de pre^os praticados em rela^ao a concorrencia. 

desconto 

Percep^ao sobre politica de descontos. 
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Para tanto, realizou, durante determinado periodo, uma pesquisa com 1.700 clientes no ponto de venda, 
cujo questionario foi estruturado por grupo de atributos, e a pergunta correspondente a cada atributo 
solicitava que o consumidor atribuisse uma nota de 0 a 10 para sua percepqao em relaqao aquele atributo, em 
que 0 correspondia a uma percepqao totalmente negativa, e 10, a melhor percepqao possivel. Por ter certa 
experiencia, o gerente-geral da loja decidiu de antemao juntar as questoes em tres grupos, de modo que o 
questionario completo ficasse de seguinte forma: 


Com base em sua percepgao, preencha o questionario a seguir com notas de 0 a 10, em 
que a nota 0 signijica que sua percepgao e totalmente negativa em relagao a determinado 
atributo, e a nota 10, que sua percepgao e a melhor possivel. 

Nota 

Produtos e Ambiente de Loja 

De uma nota de 0 a 10 para o sortimento de produtos. 


De uma nota de 0 a 10 para a qualidade e rapidez na reposi^ao dos produtos. 


De uma nota de 0 a 10 para o layout da loja. 


De uma nota de 0 a 10 para o conforto termico, acustico e visual na loja. 


De uma nota de 0 a 10 para a limpeza geral da loja. 


Atendimento 

De uma nota de 0 a 10 para a qualidade do atendimento prestado. 


Pre^os e Polftica de Descontos 

De uma nota de 0 a 10 para o nivel de pregos praticados em rela^ao a concorrencia. 


De uma nota de 0 a 10 para a politica de descontos. 



O banco de dados completo elaborado pelo gerente-geral da loja encontra-se nos arquivos Percep^ao- 

Drogaria.sav e Percep^aoDrogaria.dta. Pede-se: 

a. Apresente a matriz de correlates entre cada par de variaveis. Com base na magnitude dos valores dos 
coeficientes de correlaqao de Pearson, e possivel identificar um primeiro indicio de que a analise fatorial 
podera agrupar as variaveis em fatores? 

b. Por meio do resultado do teste de esfericidade de Bartlett, e possivel afirmar, ao nivel de significancia de 
5%, que a analise fatorial por componentes principals e apropriada? 

c. Quantos fatores sao extraidos na analise, levando-se em consideraqao o criterio da raiz latente? Qual(is) 
o(s) autovalor(es) correspondente(s) ao(s) fator(es) extraido(s), bem como o(s) percentual(is) de variancia 
compartilhada por todas as variaveis para a composiqao desse(s) fator(es)? 

d. Qual o percentual total de perda de variancia das variaveis originais resultante da extraqao do(s) fator(es) 
com base no criterio da raiz latente? 

e. Para cada variavel, qual a carga e o percentual de variancia compartilhada para a formaqao do(s) fator(es)? 

f. Com a imposiqao da extraqao de tres fatores, em detrimento do criterio da raiz latente, e com base nas 
novas cargas fatoriais, e possivel confirmar o constructo do questionario proposto pelo gerente-geral da 
loja? Em outras palavras, as variaveis de cada grupo do questionario acabam, de fato, por apresentar maior 
compartilhamento de variancia com um fator comum? 

g. Discuta o impacto da decisao de extra^ao de tres fatores sobre os valores das comunalidades? 

h. Elabore uma rota^ao Varimax e discuta novamente, com base na redistribui^ao das cargas fatoriais, o cons¬ 
tructo inicialmente proposto no questionario pelo gerente-geral da loja. 

i. Apresente o loading plot 3D com as cargas fatoriais rotacionadas. 
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APENDICE 


Alpha de Cronbach 


A. Breve Apresenta^ao 

A estatistica alpha, proposta por Cronbach (1951), e uma medida utilizada para se avaliar a consistencia in¬ 
terna das variaveis de um banco de dados, ou seja, e uma medida do grau de confiabilidade ( reliability ) com 
a qual determinada escala, adotada para a defini^ao das variaveis originais, produz resultados consistentes sobre 
a rela^ao dessas variaveis. Segundo Nunnally e Bernstein (1994), o grau de confiabilidade e definido a partir do 
comportamento das correlates entre as variaveis originais (ou padronizadas), e, portanto, o alpha de Cronbach 
pode ser utilizado para se avaliar a fidedignidade com a qual um fator pode ser extraido a partir dessas variaveis, 
sendo, assim, relacionado com a analise fatorial. 

Segundo Rogers, Schmitt e Mullins (2002), embora o alpha de Cronbach nao seja a unica medida de confia¬ 
bilidade existente, visto que apresenta restri^oes relacionadas com a multidimensionalidade, ou seja, com a iden- 
tifica^ao de multiplos fatores, pode ser definido como a medida que possibilita avaliar a intensidade com a qual 
determinado constructo ou fator esta presente nas variaveis originais. Dessa forma, um banco de dados com va¬ 
riaveis que compartilhem um unico fator tende a apresentar elevado alpha de Cronbach. 

Nesse sentido, o alpha de Cronbach nao pode ser utilizado para a avalia^ao da adequa^ao global da analise 
fatorial, ao contrario da estatistica KMO e do teste de esfericidade de Bartlett, visto que sua magnitude oferece 
ao pesquisador indicios apenas sobre a consistencia interna da escala utilizada para a extra^ao de um unico fator. 
Caso seu valor seja baixo, sequer o primeiro fator podera ser adequadamente extraido, principal razao por que al- 
guns pesquisadores optam por estudar a magnitude do alpha de Cronbach antes da elabora^ao da analise fatorial, 
embora essa decisao nao represente um requisito obrigatorio para a elabora^ao da tecnica. 

O alpha de Cronbach pode ser definido por meio da seguinte expressao: 


a=- 


k-1 


van 


1 — 


van,. 


em que: 

var fe e a variancia da fe-esima variavel, e 


var 


n 

i=l v k j 


\ 2 


n \ 2 

XS x » 

V i =1 k J 


n —1 


(10.41) 


(10.42) 


que representa a variancia da soma de cada linha do banco de dados, ou seja, a variancia da soma dos valores cor- 
respondentes a cada observa^ao. Alem disso, sabemos que ne o tamanho da amostra, e fe, o numero de variaveis X. 

Logo, podemos afirmar que, se ocorrerem consistencias nos valores das variaveis, o termo var soma sera grande o 
suficiente para que alpha (a) tenda a 1. Por ouro lado, variaveis que apresentam correlates baixas, possivelmente 
decorrentes da presen^a de valores aleatorios nas observances, farao o termo var soma regredir a soma das variancias 
de cada variavel (var fe ), o que fara alpha (a) tender a 0. 





Analise Fatorial por Componentes Principals 433 


Embora nao haja um consenso na literatura sobre o valor de alpha a partir do qual exista consistencia interna 
das variaveis do banco de dados, e interessante que o resultado obtido seja maior que 0,6 quando da aplica^ao 
de tecnicas exploratorias. 

Na sequencia, apresentaremos o calculo do alpha de Cronbach para os dados do exemplo utilizado ao longo 
do capitulo. 

B. Determina^ao Algebrica do Alpha de Cronbach 

A partir das variaveis padronizadas do exemplo estudado ao longo do capitulo, podemos elaborar a Tabela 
10.19, que nos ajuda para o calculo do alpha de Cronbach. 


Tabela 10.19 Procedimento para calculo do alpha de Cronbach. 


Estudante 

ZfinangaSi 

ZcustoSi 

Zmarketingi 

Zatudria { 

IX 

k=4 

(§4 

Gabriela 

-0,011 

-0,290 

-1,650 

0,273 

-1,679 

2,817 

Luiz Felipe 

-0,876 

-0,697 

1,532 

-1,319 

-1,360 

1,849 

Patricia 

-0,876 

-0,290 

-0,590 

-0,523 

-2,278 

5,191 

Gustavo 

1,334 

1,337 

0,825 

1,069 

4,564 

20,832 

Leticia 

-0,779 

-1,104 

-0,872 

-0,841 

-3,597 

12,939 

Ovidio 

1,334 

2,150 

-1,650 

1,865 

3,699 

13,682 

Leonor 

-0,267 

0,116 

0,825 

-0,125 

0,549 

0,301 

Dalila 

-0,139 

0,523 

0,118 

0,273 

0,775 

0,600 

Antonio 

0,021 

-0,290 

-0,590 

-0,523 

-1,382 

1,909 


Estela 

0,982 

0,113 

-1,297 

1,069 

0,868 

0,753 

Variancia 

1,000 

1,000 

1,000 

1,000 

f 100 \ 2 

X2X =o 

V r=l k=4 J 

100 f Y 

X IX = 832,570 

1=1 v k=4 / 


Logo, com base na expressao (10.42), temos que: 


832,570 

99 


8,410 


e, fazendo uso da expressao (10.41), podemos calcular o alpha de Cronbach: 



8,410 


=0,699 


Podemos considerar esse valor aceitavel para a consistencia interna das variaveis de nosso banco de dados. Entretanto, 
conforme veremos quando da determina^ao do alpha de Cronbach no SPSS e no Stata, existe perda consideravel de 
confiabilidade pelo fato de as variaveis originais nao estarem medindo o mesmo fator, ou seja, a mesma dimensao, visto 
que esta estatistica apresenta restrigoes relacionadas com a multidimensionalidade. Ou seja, caso nao incluissemos a va- 
riavel marketing no calculo do alpha de Cronbach, seu valor seria consideravelmente maior, o que indica que essa varia- 
vel nao contribui para o constructo, ou para o primeiro fator, formado pelas demais variaveis (finangas , custos e atuaria ). 

A planilha completa com o calculo do alpha de Cronbach pode ser acessada por meio do arquivo 
AlphaCronbach.xls. 

De maneira analoga ao realizado ao longo do capitulo, apresentaremos, na sequencia, os procedimentos para 
obten^ao do alpha de Cronbach no SPSS e no Stata. 


C. Determinate do Alpha de Cronbach no SPSS 

Vamos novamente fazer uso do arquivo NotasFatorial.sav. 

Para que possamos determinar o alpha de Cronbach com base nas variaveis padronizadas, devemos inicial- 
mente padroniza-las pelo procedimento Zscores. Para tanto, vamos clicar em Analyze —> Descriptive Statistics 
—> Descriptives...,Ao selecionarmos todas as variaveis originais, devemos clicar em Save standardized values 
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as variables. Embora esse procedimento especifico nao seja mostrado aqui, apos clicarmos em OK, as variaveis 
padronizadas serao geradas no proprio banco de dados. 

Na sequencia, vamos clicar em Analyze —> Scale —> Reliability Analysis..., Uma caixa de dialogo sera 
aberta. Devemos inserir as variaveis padronizadas em Items, conforme mostra a Figura 10.49. 


Reliability Analysis 


n otafin al definangas (pal.. 


^ nota final de custos (0 a 10). 
^ nota final de marketing (0 a... 
^ nota final de atuaria (0 a 10)... 




4? Zscore: nota final de financ... 
^ Zscore: nota final de custo... 
$ Zscore: nota final de marke... 
^ Zscore: nota final de atuari. 


Model: [Alpha 

Scale label: I 


[ OK ][ Paste ] [ Reset ) [T^ncei ] [~Help ] 


(jjta 


Figura 10.49 Caixa de dialogo para determinagao do alpha de Cronbach no SPSS. 


Na sequencia, em Statistics..., devemos marcar a opgao Scale if item deleted, conforme mostra a Figura 10.50. 
Essa op$ao faz com que sejam calculados os diferentes valores de alpha de Cronbach quando se elimina cada variavel da 
analise. O termo item e bastante referenciado no trabalho de Cronbach (1951) e utilizado como sinonimo de variavel. 


P 


Reliability Analysis: Statistics 


-Descriptives for 

□ Item 

□ Scale 

M Scale if item deleted 


-Inter-Item 

0 Correlations 

0 Covariances 



oummanes 

0 Means 

0 Variances 

0 Covariances 

0 Correlations 


anuva i able 

©None 

©Rest 

© Friedman chi-square 
© Cochran chi-square 


□ Hotelling's T-square 0 Tukey's test of additivity 

IQ Intracfass correlation coeffident 

Model: [Tivo-.Vs, MLed Cj Tyge: |consicti.‘iC> 
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Figura 10.50 Sele^ao da opgao para calculo do alpha ao se excluir determinada variavel. 


Em seguida, podemos clicar em Continue e em OK. 

A Figura 10.51 apresenta o resultado do alpha de Cronbach, cujo valor e exatamente igual ao calculado por 
meio das expressoes (10.41) e (10.42) e mostrado na se$ao anterior. 


Reliability Statistics 


Cronbach's 

Alpha 

N of Items 

,699 

4 


Figura 10.51 Resultado do alpha de Cronbach no SPSS. 

Alem disso, a Figura 10.52 ainda apresenta na ultima coluna os valores que seriam obtidos do alpha de 
Cronbach, caso determinada variavel fosse excluida da analise. Assim, podemos verificar que a presen^a da variavel 
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marketing contribui negativamente para a identifica^ao de apenas um fator, pois, conforme sabemos, essa variavel 
apresenta forte correla^ao com o segundo fator extraido pela analise de componentes principals elaborada ao 
longo do capitulo. Como o alpha de Cronbach e uma medida de confiabilidade unidimensional, a exclusao da 
variavel marketing faria seu valor chegar a 0,904. 


Item-Total Statistics 



Scale Mean if 
Item Deleted 

Scale 
Variance if 
Item Deleted 
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Item-Total 
Correlation 

Cronbach's 
Alpha if Item 
Deleted 
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finanpas (0 a 10) 
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,508 

Zscore: nota final de 
custos (0 a 10) 
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,758 

,447 

Zscore: nota final de 
marketing (0 a 10) 

,0000000 

7,552 

-,026 

,904 

Zscore: nota final de 
atuaria (0 a 10) 

,0000000 

4,458 

,699 

,491 


Figura 10.52 Alpha de Cronbach quando da exclusao de cada variavel. 


Na sequencia, obteremos os mesmos outputs por meio da aplica^ao de comandos especificos no Stata. 

D. Determinate) do Alpha de Cronbach no Stata 

Vamos agora abrir o arquivo NotasFatorial.dta. 

A fim de que seja calculado o alpha de Cronbach, devemos digitar o seguinte comando: 

alpha finangas custos marketing atuaria, asis std 

em que o termo std faz com que seja calculado o alpha de Cronbach a partir das variaveis padronizadas, mesmo 
que tenham sido consideradas as variaveis originais no comando alpha. 

O output gerado encontra-se na Figura 10.53. 


| . alpha finangas custos marketing 

atuaria, asis std 1 

1 Test scale = mean(standardized items) 1 

Average interitem correlation: 

0.3675 

Number of items in the scale: 

4 | 

Scale reliability coefficient: 

0.6992 


Figura 10.53 Resultado do alpha de Cronbach no Stata. 


Caso o pesquisador opte por obter os valores do alpha de Cronbach quando da exclusao de cada uma das va¬ 
riaveis, assim como realizado no SPSS, podera digitar o seguinte comando: 

alpha finangas custos marketing atuaria, asis std item 

Os novos outputs sao apresentados na Figura 10.54, em que os valores da ultima coluna sao exatamente iguais 
aos apresentados na Figura 10.52, o que corrobora o fato de que as variaveis finangas, custos e atuaria apresentam 
elevada consistencia interna para a determina^ao de um unico fator. 
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Figura 10.54 Consistencia interna ao se excluir cada variavel - Ultima coluna. 













Analise de Correspondencia Simples e Multipla 


0 mundo recompense! com mais frequencia as 
aparencias do merito do que o proprio merito. 

Francois de La Rochefoucauld 


Ao final deste capitulo, voce tera condigoes de: 

• Estabelecer as circunstancias a partir das quais as tecnicas de analise de correspondencia podem ser 
utilizadas. 

• Saber diferenciar a analise de correspondencia simples da analise de correspondencia multipla. 

• Entender como os bancos de dados devem ser dispostos para a elaboragao das tecnicas. 

• Saber interpretar os resultados do teste %’ 2 - 

• Compreender os conceitos de frequences absolutas e relativas e de residuos em tabelas de contingency. 

• Saber calcular e interpretar as inercias principals parciais e totais. 

• Gerar coordenadas das categorias das variaveis e construir mapas perceptuais. 

• Entender as diferengas entre o metodo da matriz binaria e o metodo da matriz de Burt para a elaboragao 
da analise de correspondencia multipla. 

• Elaborar as tecnicas de analise de correspondencia simples e multipla de maneira algebrica e por meio do 
IBM SPSS Statistics Software® e do Stata Statistical Software® e interpretar seus resultados. 


11.1. introdu^Ao 

As tecnicas exploratorias de analise de correspondencia simples e multipla sao muito uteis quando ha a in- 
ten^ao de se trabalhar com variaveis que apresentam dados categoricos, como as variaveis qualitativas, e deseja-se 
investigar a associa£ao entre as variaveis e entre suas categorias. 

Imagine que um pesquisador tenha interesse em estudar a rela^ao de interdependence entre duas vari¬ 
aveis categoricas, por exemplo, comportamento de consumo, descrito pela preferencia por determinados tipos 
de estabelecimento varejista, e faixa de idade dos consumidores. Nessa situa^ao, a analise de correspondencia 
simples pode ser utilizada, uma vez que e uma tecnica bivariada que permite investigar a associa^ao entre duas, 
e somente duas, variaveis categoricas. 

Em outra situa^ao, pode-se investigar a rela^ao entre o pais de origem, o setor de atua^ao e a faixa de lucra- 
tividade de empresas de capital aberto. Nesse caso, a analise de correspondencia multipla pode ser utilizada, 
ja que se trata de uma tecnica multivariada que possibilita a investiga^ao da existencia de associa^ao entre mais 
de duas variaveis categoricas. 

Segundo Greenacre (2008), as tecnicas de analise de correspondencia sao metodos de representa^ao de linhas 
e colunas de tabelas cruzadas de dados como coordenadas em um grafico, chamado mapa perceptual, a par¬ 
tir do qual se podem interpretar as similaridades e diferen^as de comportamento entre variaveis e entre categorias. 
Portanto, essas tecnicas tern como principal objetivo avaliar a significancia dessas similaridades, determinar coorde¬ 
nadas das categorias com base na distribui^ao dos dados em tabelas cruzadas e, a partir dessas coordenadas, construir 
mapas perceptuais, que nada mais sao que diagramas de dispersao que representam as categorias das variaveis 
na forma de pontos em rela^ao a eixos de coordenadas ortogonais. Sao, portanto, mapas de categorias. 

Embora a origem teorica dessas tecnicas regrida a primeira metade do seculo XX, com o seminal trabalho de 
Hirschfeld (1935), foi o matematico e linguista frances Jean-Paul Benzecri que deu um impulso realmente significativo 
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as aplica^oes modernas da analise de correspondence, a partir da decada de 1960,com estudos realizados na Universidade 
de Rennes e, posteriormente, na Universidade de Paris. Anos mais tarde, o holandes Jan de Leeuw e o japones Chikio 
Hayashi tambem fizeram importantes contributes para o desenvolvimento teorico e pratico das tecnicas. Em 1984, 
Greenacre publica uma importante obra ( Theory and Applications of Correspondence Analysis), que acaba por contribuir 
para uma ampla difusao das tecnicas de analise de correspondence em diversas partes do mundo. 

As tecnicas de analise de correspondence simples e multipla permitem considerar todo e qualquer tipo de 
categoria de variaveis, sem que o pesquisador precise fazer uso do incorreto procedimento de pondera^ao 
arbitraria, infelizmente ainda tao praticado em ambientes academicos e organizacionais. Variaveis em escala 
Likert, por exemplo, sofrem constantemente com esse tipo de manipula^ao, visto que, com frequence, pesqui- 
sadores atribuem pesos arbitrarios a cada uma das possiveis categorias. As tecnicas de analise de correspondence 
sao bastante uteis para que o pesquisador perceba a incoerencia desse tipo de pratica! 

Conforme discutido nos dois capitulos anteriores, a analise de correspondence deve ser definida com base na 
teoria subjacente e na experience do pesquisador, de modo que seja possivel aplica-la de forma correta e anali- 
sar os resultados obtidos. 

Neste capitulo, trataremos das tecnicas de analise de correspondence simples e multipla, com os seguintes 
objetivos: (1) introduzir os conceitos; (2) apresentar, de maneira algebrica e pratica, o passo a passo da modela¬ 
gem; (3) interpretar os resultados obtidos; e (4) propiciar a aplica^ao das tecnicas em SPSS e Stata. Seguindo a 
logica dos dois capitulos anteriores, sera inicialmente elaborada a solu^ao algebrica de um exemplo vinculada 
a apresenta^ao dos conceitos. Somente apos a introdu^ao dos conceitos serao apresentados os procedimentos 
para a elabora^ao das tecnicas em SPSS e Stata. 

11.2. anAlise de correspondence simples 

A analise de correspondence simples, tambem conhecida por Anacor, e uma tecnica de analise bivariada 
por meio da qual e estudada a associa^ao entre duas variaveis categoricas e entre suas categorias, bem como a 
intensidade dessa associa^ao, a partir de uma tabela cruzada de dados, conhecida por tabela de contingencia, 
em que sao dispostas em cada celula as frequencias absolutas observadas para cada par de categorias das duas 
variaveis. A tabela de contingencia tambem e chamada de tabela de correspondence, tabela de classifica- 
£ao cruzada ou cross-tabulation. 

Nas se^oes seguintes, apresentaremos o desenvolvimento teorico da tecnica, bem como a elabora^ao de um 
exemplo pratico. Enquanto nas se^oes 11.2.1 a 11.2.4 serao apresentados os principal conceitos, a segao 11.2.5 
e destinada a resolu^ao de um exemplo pratico por meio de solu^ao algebrica a partir de um banco de dados. 

11.2.1. Nota^ao 

Imaginemos um banco de dados que apresenta apenas e tao somente duas variaveis categoricas, em que a 
primeira possui I categorias, e a segunda,J categorias. Logo, a partir desse banco de dados, e possivel definir uma 
tabela de contingencia X Q (cross-tabulation) que apresenta as frequencias absolutas observadas das categorias das 
duas variaveis, em que determinada celula ij contem certa quantidade n- (i = 1,..., Iej = 1, ...,J) de observa^oes. 
A quantidade total de observa^oes N do banco de dados pode, portanto, ser expressa por: 

M ( 11 . 1 ) 

A representagao geral de uma tabela de contingencia e: 


Tabela 11.1 Representa^ao geral de uma tabela de contingencia 
(frequencias absolutas observadas). 
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Na forma matricial, a tabela pode ser representada da seguinte maneira: 


n n 

n l2 

H \ J 

n 2l 

U 22 

n 2J 

n 

n i2 

H IJ ) 


( 11 . 2 ) 


Como um dos principals objetivos da analise de correspondencia simples e estudar a existence de associa^ao 
estatisticamente significante a determinado nivel de significance entre duas variaveis categoricas e entre as cate- 
gorias de cada uma, devemos partir para o estudo do teste X 2 e dos residuos em tabelas de contingencia. 

11.2.2. Associa^ao entre duas variaveis categoricas e entre suas categorias: teste x 2 e analise 
dos residuos 

Uma vez que a matriz X Q da expressao (11.2) apresenta as frequences absolutas observadas para cada combi- 
na^ao de categorias das duas variaveis, podemos definir a expressao de uma matriz X e que oferece as frequen- 
cias absolutas esperadas em cada celula. Para tanto, a Tabela 11.1 podem ser acrescentados os valores totais das 
frequences absolutas observadas em cada linha e coluna, conforme mostra a Tabela 11.2. 


Tabela 11.2 Tabela de contingencia com valores totais por linha e coluna. 



1 

2 


J 

Total 

1 

n n 

n 12 


n \J 

Ui 

2 

n 2l 

n 22 

n 2J 

n 2 




: 

: 

I 

n Il 

n I2 

n lJ 

U 

Total 

Xci 

Zc 2 

... 

Icj 

N 


Obviamente, sabemos que: 


+...+X*/- 


N 


(11.3) 


Logo, a tabela que apresenta as frequences absolutas esperadas de cada celula pode ser definida de acordo com 
o apresentado na Tabela 11.3. 


Tabela 11.3 Tabela com frequences absolutas esperadas em cada celula. 



Na forma matricial, essa tabela pode ser escrita como: 
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(11.4) 


Portanto, podemos definir uma matriz de residuos, E, cujos valores se referem as diferen^as, para cada ce- 
lula, entre as frequencias absolutas observadas e esperadas. Logo, temos que: 
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(11.5) 

E, com base nas matrizes X e e E, podemos definir a estatistica X 2 conforme segue, de maneira analoga ao ex- 
posto na expressao (3.1) do Capitulo 3: 


i =1 j= 1 


n u — 


XiX> 
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v y 


“|2 


XrX*. 

N 

v y 


( 11 . 6 ) 


com (/-l) x (/- 1) graus de liberdade, conforme estudamos no Capitulo 3. 

Em outras palavras, a estatistica X 2 corresponde a somatoria, para todas as celulas, dos valores correspondentes 
a razao entre o residuo ao quadrado e a frequencia esperada em cada celula. Sendo assim, para dado numero de 
graus de liberdade e determinado nivel de significance, se o valor total da estatistica X 2 f° r maior que seu valor 
critico, poderemos afirmar que existe associa^ao estatisticamente significante entre as duas variaveis categoricas, 
ou seja, a distribuigao das frequencias das categorias de uma variavel segundo as categorias da outra nao sera ale¬ 
atoria, e, portanto, havera um padrao de dependencia entre essas variaveis. Podemos, portanto, definir as hipoteses 
nula e alternativa do teste X 2 referente a essa estatistica da seguinte maneira: 


H 0 : as duas variaveis categoricas se associam de forma aleatoria. 

a associa^ao entre as duas variaveis categoricas nao se da de forma aleatoria. 

E importante mencionar que a estatistica X 2 aumenta a medida que cresce o tamanho da amostra (N), o que 
pode prejudicar a analise da associa^ao existente em tabelas de contingencia. Para que tal problema seja supe- 
rado, segundo Beh (2004), a analise de correspondence faz uso da inercia principal total de uma tabela de 
contingencia para descrever o nivel de associa^ao entre duas variaveis categoricas, expressa por: 


i T = 


N 


(11.7) 
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Ainda segundo Beh (2004), a decomposi^ao da inercia principal total de uma tabela de contingencia pode 
auxiliar o pesquisador na identifica^ao de fontes importantes de informa^ao que possam ajudar a descrever a as- 
socia^ao entre duas variaveis categoricas e, como consequencia, propiciar a constru^ao de mapas perceptuais. O 
tipo mais comum de decomposi^ao inercial corresponde a determina^ao de autovalores, a ser abordada na 
proxima se^ao. 

Antes disso, porem, precisamos elaborar um estudo mais aprofundado das relates entre as duas variaveis, com 
foco em suas categorias, fazendo uso dos residuos padronizados e dos residuos padronizados ajustados. 
Enquanto o teste X 2 permite avaliar se a distribui^ao das frequencias das categorias de uma variavel segundo as 
categorias da outra e aleatoria ou se ha um padrao de dependencia entre as duas, a analise dos residuos padroni¬ 
zados ajustados, segundo Batista, Escuder e Pereira (2004), revela os padroes caracteristicos de cada categoria de 
uma variavel segundo o excesso ou a falta de ocorrencias de sua combina^ao com cada categoria da outra vari- 
avel.Vamos, entao, introduzir seus conceitos. 

Seguindo Barnett e Lewis (1994), podemos definir os residuos padronizados em uma tabela de contingencia 
dividindo-se em cada celula o valor do residuo calculado pela raiz quadrada da respectiva frequencia absoluta es- 
perada. Sendo assim, temos, para determinada celula ij (i = 1,..., I e j = 1, ...,J), que: 

^padronizado - 

em que n { - e ne^ se referem, respectivamente, as frequencias absolutas observadas e as frequencias absolutas espe- 
radas. Portanto, com base na Tabela 11.3 e na expressao (11.4), podemos definir uma matriz de residuos pa- 
dronizados, E padronizado , da seguinte forma: 

n. 


n■ 


A partir dos residuos padronizados, podemos calcular os residuos padronizados ajustados propostos por 
Haberman (1973), cuja expressao geral, para cada celula ij (i — 1,..., I e j = 1, ...,J), e dada por: 

p 

padronizado ajustado,^ 


e, analogamente, podemos definir uma matriz de residuos padronizados ajustados, E padronizado a j ustado , da se¬ 
guinte maneira: 
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^padronizado n ^padronizado^ ^padronizadoj, 



E 


padronizado ajustado 


^padronizado 21 



^padronizado,^ 



^padronizado 2 y 



^padronizado n ^padronizado /2 ^padronizado^ 



( 11 . 11 ) 


Segundo Batista, Escuder e Pereira (2004, tanto para o estudo da associa^ao entre as variaveis (teste X 2 ) quanto 
para o dos padroes caracteristicos de cada categoria de uma variavel segundo o excesso ou a falta de ocorrencias 
de sua combina^ao com cada categoria da outra variavel (analise dos reslduos padronizados ajustados), e comum 
adotar, como veremos mais adiante, o nivel de significance de 5% para o excesso de ocorrencias em determinada 
celula, que corresponde a um residuo padronizado ajustado com valor positivo superior a 1,96 (distribui^ao nor¬ 
mal padrao, conforme mostra aTabela E do apendice do livro). Nesse sentido, caso determinada celula apresente 
um residuo padronizado ajustado com valor superior a 1,96, poderemos caracterizar a associa^ao entre as duas 
categorias correspondentes a ela (cada uma proveniente de uma variavel). 

Sendo assim, tao importante quanto avaliar a existence de associa^ao estatisticamente significante entre duas 
variaveis categoricas e estudar a rela^ao de dependence entre cada par de categorias, o que, inclusive, facilitara a 
analise do mapa perceptual a ser construido, como veremos no final da se^ao 11.2.5. 

Elaboradas as analises, podemos, de fato, partir para o estudo da decomposigao inercial, a fim de que sejam 
definidas as coordenadas de cada categoria de cada variavel e, consequentemente, construido o mapa perceptual. 


11 .23. Decomposite inercial: a determinate) de autovalores 

Tradicionalmente, o metodo de decomposi^ao de autovalores e conhecido por metodo Eckart-Young, em 
que sao gerados m autovalores, sendo m = min(I— 1 ,J— 1). Se, por exemplo, determinada base de dados oferecer 
uma tabela de contingencia com dimensoes (3 x 3), serao calculados m = 2 autovalores que, na analise de cor¬ 
respondence, tambem sao chamados de inercias principais parciais. 

Inicialmente, vamos definir uma matriz de propor^oes P, tambem conhecida por matriz de frequencias 
relativas observadas, cujos valores sao calculados com base na matriz X 0 , conforme mostra aTabela 11.4. 


Tabela 11.4 Tabela com frequencias relativas observadas em cada celula. 
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Na forma matricial, essa tabela pode ser representada por: 
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( 11 . 12 ) 


Com base na tabela de ffequencias relativas observadas (matriz P), podemos definir o conceito de massa, que 
representa uma medida de influencia ou preponderance de determinada categoria em rela^ao as demais, com ba¬ 
se em sua frequence observada. Sendo assim, podemos determinar as massas das categorias da variavel disposta em 
linha e, da mesma forma, das categorias da variavel disposta em coluna na tabela de contingencia. As Tabelas 11.5 
e 11.6 apresentam essas massas, com destaque para as massas medias de cada categoria em linha ou em coluna. 


Tabela 11.5 Massas - Column profiles. 
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Tabela 11.6 Massas - Row profiles. 
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Com base nos valores das massas medias em linha e em coluna, podemos definir duas matrizes diagonais, D* 
e D c , que contem, respectivamente, esses valores em suas diagonais principais. Sendo assim, temos que: 
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(11.13) 
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N 

0 0 


(11.14) 


Note que, enquanto os valores da diagonal principal da matriz D* sao oriundos daTabela 11.5 (column profiles ), 
os valores da diagonal principal da matriz D c sao provenientes daTabela 11.6 (rowprofiles ). 

Segundo Johnson e Wichern (2007), a decomposi^ao inercial para a elabora^ao da analise de corresponden¬ 
ce consiste em calcular os autovalores de uma matriz W = A f A, em que A pode ser definida da seguinte forma: 
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Pode-se provar que os valores das celulas da matriz A sao iguais aos valores das respectivas celulas da matriz 


“'padronizado 


divididos pela raiz quadrada do tamanho da amostra (ViV). 


Se, por exemplo, A for uma matriz (3 x 3), W tambem sera uma matriz (3 x 3) com a seguinte expressao: 

i^ 12 w l3 > 

W = 

1^22 1^23 I 

1^31 ^32 ^33 7 (11.17) 

da qual podem ser calculados os autovalores (A 2 ) da decomposi^ao inercial, por meio da solu^ao da seguinte 
equa^ao: 


A 2 — 

1^12 

-w 13 

i 

to 

A 1^22 

-w 23 

CO 

1 

— W 32 

A 2 -w : 


I 31 32 - 33 (11.18) 

em que lea matriz identidade. 

Genericamente, para uma tabela inicial de contingencia de dimensoes (I x jf), os m autovalores obtidos obe- 
decem a seguinte logical 

AQ = 1 >>...>A 2 W >0, em que m = mm(J- 1 ,J- 1). 

Alem disso, a inercia principal total, ja definida por meio da expressao (11.7), pode ser tambem escrita com 
base nos autovalores obtidos, conforme segue: 

_2 m=rmn(/-l,J—1) 

I T =—= X 2 k ,k=\,2,...,m 

N k= l 


(11.19) 
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Em outras palavras, a decomposi^ao inercial em determinada tabela de contingencia, representada pelas di- 
feren^as entre as frequences absolutas observadas e esperadas, pode ser decomposta em m componentes, que se 
referem aos valores das inercias principals parciais de cada dimensao e que nada mais sao que o quadrado dos 
valores singulares X k de cada dimensao. Como a analise de correspondence tern, como um de seus principals 
objetivos, propiciar ao pesquisador a constru^ao de mapas perceptuais que mostram a rela^ao entre as categorias 
das variaveis dispostas em linha e em coluna na tabela de contingencia, cada componente da inercia principal to¬ 
tal sera utilizado para que se identifique como determinada linha ou coluna contribui para a constru^ao de cada 
eixo (dimensao) do referido mapa. 

Dessa forma, precisamos definir como sao calculadas as coordenadas (tambem chamadas de scores) das catego¬ 
rias de cada variavel no mapa perceptual, com base nos conceitos estudados ate o presente momento. 


11.2.4. Defini^ao das coordenadas ( scores ) das categorias no mapa perceptual 

Seguindo a mesma logica proposta por Johnson e Wichern (2007), vamos chamar a matriz diagonal de auto- 
valores da matriz W = A’A de A 2 , em que: 

"A 2 0 ••• o N 


A 2 = 


0 l 2 2 ••• 0 


V 0 0 • • • %mj 


( 11 . 20 ) 

sendo que cada X 2 k se refere a inercia principal parcial da k-esima dimensao, e X h ao respectivo valor singular. Logo, 
definidos os autovalores da matriz W, podemos chegar aos autovetores da mesma matriz, que chamaremos de: 


r.. \ 


v= 


u= 


v v j; 




V u /y 


Johnson e Wichern (2007) provam ainda que a rela 9 ao entre os autovetores se da por meio das seguintes ex- 
pressoes: 


v fe =U 'k' [D; _1/2 ‘ (P-/c’)-D c -1/2 ] 

u fe =[Dr 1/2 -(p-zo-D; i/2 ]. Vfe -r; 

Alem disso, Johnson e Wichern (2007) ainda demonstram que: 

v k ‘D c 1/2 - lj =0 


u 'k 'D ( 1/2 •l / =0 


( 11 . 21 ) 

( 11 . 22 ) 

(11.23) 

(11.24) 


em que 1, e 1 j representam, respectivamente, vetores de dimensoes I X 1 e J X 1 com valores iguais a 1, respei- 
tadas as seguintes condifoes: 


(d £ 1/2 • v, )'• d; 1 • (d; / 2 • v,)= v ; • Vfe =i (n.25) 

(°1 /2 • )’• D /‘ ■ ( D / 1/2 ' )=%• Ufe = 1 (11.26) 
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Definidos a matriz diagonal de autovalores A 2 e os autovetores Ue V, as coordenadas (abcissa e ordenada) de 
cada categoria das variaveis podem ser calculadas com base nas seguintes expressoes: 

• Variavel em linha na tabela de contingencia: 

• Coordenadas da primeira dimensao (abcissas): 


X = 


\ 




-- D, 1 (Dj /2 ■ U) • A - TV D“ 1/2 • u, 


Coordenadas da segunda dimensao (ordenadas): 

=d,- 1 - (d; /2 -u)-a=VX7-d-; /2 -u 2 




Y,= 


\jiiJ 

• Coordenadas da k-esima dimensao: 


z,= 


z n 


v z //y 


= D, _1 • (D, 1/2 • U)• A = ^k k • D7 1/2 • u k 


(11.27) 


(11.28) 


(11.29) 


• Variavel em coluna na tabela de contingencia: 

• Coordenadas da primeira dimensao (abcissas): 


X = 


V X c/ J 


=D 


(D c 1/2 -v)-A=VX7-D- 1 


- 1/2 


(11.30) 


• Coordenadas da segunda dimensao (ordenadas): 

=d; 1 (d c 1/2 • v ) • a =.Jk 2 ■ d; 1/2 • v 2 


• Coordenadas da k-esima dimensao: 



(11.31) 


Z = 




\ Z cJJ 


=d; 1 -(d c 1/2 -v)-a=V^-d; 


- 1/2 


*v. 


(11.32) 


E importante ressaltar que as coordenadas da variavel em linha tambem podem ser obtidas por meio das 
coordenadas da variavel em coluna e vice-versa. Assim, caso o pesquisador tenha apenas as coordenadas das ca- 
tegorias de uma das variaveis, porem possua as massas de cada uma das categorias da outra, alem dos valores sin¬ 
gulars, podera calcular as coordenadas das categorias desta ultima variavel. Conforme comentam Favero et al. 
(2009), as coordenadas das categorias da variavel em linha para uma especifica dimensao podem ser obtidas mul- 
tiplicando-se a matriz de massas (row profiles) pelo vetor de coordenadas das categorias da variavel em coluna e 
dividindo-se os valores obtidos pelo valor singular daquela determinada dimensao. Analogamente, as coordenadas 
das categorias da variavel em coluna, tambem para dada dimensao, podem ser obtidas multiplicando-se a matriz 
de massas (column profiles) pelo vetor de coordenadas das categorias da variavel em linha e dividindo-se tambem 
os valores obtidos pelo valor singular daquela dimensao. 

Assim, temos que: 
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x,= 


\ 


V X I/ J 


(f \ 
n \\ 


( ^ 

n \2 

£*ij vXC 

^ \ 


f 

n 


*21 


f \ 

H I1 


vI'J II': 


n 


22 




f \ 

U I2 


vvX^J IX*j lx** 


r hj 


vXC 

/ A 

^2 J 


l' ‘ A 

W TT 


f- \ 




■K 


j) 


(11.33) 


X = 


/ x ^ 
X cl 


v x c/y 




A f 


'11 


SO II 


( ^ 
n 


21 

I'. 


*12 


*22 


v2/ 2 y 

n I2 


vvIO II 


z 7 


f A 

n i j 


no 

no 


no 


n' 




V x uy 


n- 1 


(11.34) 


Com base nas expressoes (11.33) e (11.34), podem ser definidas, de forma analoga, as expressoes das coorde- 
nadas das demais dimensoes, sempre levando-se em considerando os respectivos valores singulares. 

Por fim, podemos verificar que as coordenadas (scores) se relacionam com os valores singulares obtidos pode 
meio das seguintes expressoes: 


*,n 


i=i 


no 2 




J 

■1 

1=1 


( X cj) 


v N / 




1=1 


(y«) 


N 

V J 


J 

■i 

j=i 


(y d) 


np 

y N , 




1=1 


(*,,) 2 


k n j 


J 

! I 

1=1 


( Z g) 


'Si' 

v N / 


(11.35) 


(11.36) 


(11.37) 


As coordenadas X e Y obtidas por meio das expressoes (11.27) a (11.32) sao utilizadas para construir um 
mapa perceptual conhecido como mapa simetrico, em que os pontos que representam as linhas e colunas das 
categorias das variaveis possuem a mesma escala, tambem conhecida por normalizaf ao simetrica. Caso o pes- 
quisador deseje, por outro lado, privilegiar exclusivamente a visualiza^ao das massas em linha ou das massas em 
coluna de determinada tabela de contingencia para a constru^ao do mapa perceptual, podera abrir mao da nor- 
maliza^ao simetrica e optar, respectivamente, por aquelas conhecidas como principal linha e principal coluna. 
Nesses casos, o calculo das coordenadas e elaborado por expressoes apresentadas no Quadro 11.1. 
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Quadro 11.1 Expressoes para determina^ao das abclssas e ordenadas em mapas perceptuais. 


Normallza^ao 

Expressao para as Abcissas 

Expressao para as Ordenadas 

Simetrica 

X = • (D } /2 • U) • A 

Y = d ; 1 • (D y 2 • V) • A 

Principal Linha 

X = D, ' • (D Y 2 ■ U) • A 

Y = d ; 1 • (D c 1/2 • V) 

Principal Coluna 

X = D ,' 1 • (D , 1/2 • U) 

Y = d ; 1 • (D 1 / 2 • V) • A 


Enquanto, no perfil linha, apenas o calculo das abcissas leva em considera^ao a matriz de valores singulares, 
no perfil coluna, essa matriz e utilizada apenas para o calculo das ordenadas. 

Com base na determinagao das coordenadas de cada categoria, pode ser construido um mapa perceptual com 
m dimensoes. Embora essa possibilidade seja matematicamente possivel, apenas as duas primeiras dimensoes (m 
= 2) sao geralmente utilizadas para a elabora^ao da analise grafica, o que gera um mapa perceptual conhecido 
por biplot. 

Na proxima se^ao, utilizaremos os conceitos apresentados para a elaboragao analitica de um exemplo pratico. 


11 . 2 . 5 . Exemplo pratico de analise de correspondence simples (Anacor) 

Imagine que o mesmo professor tenha agora o interesse em estudar se o perfil de investidor de seus alunos 
relaciona-se com o tipo de aplicagao financeira realizada, ou seja, se existe associagao estatisticamente significante, 
a determinado nivel de significance, entre os perfis dos investidores e a forma como sao alocados seus recursos 
financeiros. 

Nesse sentido, o professor elaborou uma pesquisa com 100 alunos da escola onde leciona, solicitando que ca¬ 
da um declarasse em que tipo de aplica^ao financeira possuia a maior parte de seus recursos. Tres possibilidades 
surgiram como resposta: Poupan^a, CDB e A^oes. Na sequencia, com base na estratificagao do fator princi¬ 
pal gerado a partir de uma analise fatorial por componentes principais aplicada anteriormente a diversas varia- 
veis, os mesmos estudantes foram classificados pelo professor em tres tipos de perfil de investidor: Conservador, 
Moderado ou Agressivo. Parte do banco de dados elaborado, que possui apenas essas duas variaveis categoricas, 
encontra-se naTabela 11.7. 


Tabela 11.7 Exemplo: Perfil do investidor e tipo de aplica^ao financeira. 


Estudante 

Perfil do Investidor 

Tipo de Aplica9ao Financeira 

Gabriela 

Conservador 

Poupan^a 

Luiz Felipe 

Conservador 

Poupanga 

: 

Renata 

Conservador 

CDB 

Guilherme 

Conservador 

A^oes 


Kamal 

Moderado 

Poupan^a 

Rodolfo 

Moderado 

CDB 

: 

Raquel 

Moderado 

CDB 

Anna Luiza 

Moderado 

A^oes 


Nuno 

Agressivo 

Poupan^a 

Braulio 

Agressivo 

CDB 


Estela 

Agressivo 

A^oes 
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O banco de dados completo pode ser acessado por meio do arquivo Perfil_Investidor x Aplica 9 a 0 .xls. Por 
meio dele, e possivel definir a tabela de contingencia de nosso exemplo, que possui dimensao 3 x 3 e oferece as 
frequencias absolutas observadas para cada par perfil do investidor x tipo de aplica^ao (Tabela 11.8). 


Tabela 11.8 Tabela de contingencia com frequencias absolutas observadas. 


^"\A.pIica£ao 

Perfil 

Poupanga 

CDB 

Agoes 

Total 

Conservador 

8 

4 

5 

T-l 

II 

Moderado 

5 

16 

4 

M 

to""* 

II 

to 

Ol 

Agressivo 

2 

20 

36 

Us = 58 

Total 

Xci = 15 

= 40 

Xc 3 = 45 

N = 100 


Na forma matricial, a tabela de contingencia com frequencias absolutas observadas pode ser escrita, com base 
na expressao (11.2), da seguinte forma: 


X = 


r S 4 5 ^ 

5 16 4 

^2 20 36 ^ 


Por meio da Tabela 11.8 (ou da matriz X Q ),podemos verificar que ha mais investidores com o perfil Agressivo 
que Moderado ou Conservador. Em rela^ao ao tipo de aplica^ao financeira, verificamos que ha uma quantidade 
maior de investidores com recursos alocados em Agoes e em CDB que em Poupanga. Entretanto, essa analise pre- 
liminar e apenas univariada, ou seja, leva em considera^ao a distribui^ao de frequencias para cada variavel isola- 
damente, sem uma analise de classifica^ao cruzada. Nosso objetivo, portanto, e estudar se as categorias do perfil 
do investidor associam-se de forma estatisticamente significante com as categorias do tipo de aplica^ao financeira 
em uma perspectiva bivariada. 

Conforme discutimos na se^ao 11.2.2, precisamos, portanto, investigar inicialmente se as categorias das duas 
variaveis associam-se de forma aleatoria ou se existe uma rela^ao de dependencia entre elas. A fim de que seja 
calculada a estatistica X 2 > devemos definir as frequencias absolutas esperadas e os residuos de cada uma das celulas 
da tabela de classifica^ao cruzada. Enquanto a Tabela 11.9 apresenta as frequencias absolutas esperadas, a Tabela 
11.10 mostra os residuos. 


Tabela 11.9 Frequencias absolutas esperadas. 


Aplicagao 

Perfil 

Poupanga 

CDB 

Agoes 

Conservador 


f 15x17^ 

l 100 y 

= 2,55 


( 40x17 

v 100 

\ 

= 6,80 

/ 


45x17' 

100 

\ 

= 7,65 

) 

Moderado 


f 15x25^ 

= 3,75 


^40x25^| 

=10,00 


^45x25^1 

= 11,25 

l 100 J 

100 J 

100 J 

Agressivo 


f 15x58^j 

= 8,70 


^40x58^) 

= 23,20 


'45x58^ 

= 26,10 

V 100 J 

v 100 J 

v 100 J 


Tabela 11.1 0 Residuos - Diferengas entre frequencias absolutas observadas e esperadas. 


Aplicagao 

Perfil 

Poupanga 

CDB 

Agoes 

Conservador 

5,45 

-2,80 

-2,65 

Moderado 

1,25 


-7,25 

Agressivo 

-6,70 


9,90 
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Analogamente, na forma matricial, temos, com base nas expressoes (11.4) e (11.5), que: 




^2,55 

6,80 

7,65^ 

X e 

= 

3,75 

10,00 

11,25 



^8,70 

23,20 

26,10 y 



5,45 

-2,80 

-2,65^ 

E = 


1,25 

6,00 

-7,25 


V 

-6,70 

-3,20 

9,90 y 


Obviamente, podemos verificar que a somatoria dos residuos e igual a 0 para cada linha e para cada coluna 
da matriz E. 

Com base na expressao (11.6), podemos elaborar aTabela 11.11, cuja somatoria dos valores de cada celula 
fornece o valor da estatistica % 2 . 


Tabela 11.11 Valores de X 2 por celula. 


Aplicafao 

Perfil 

Poupan^a 

CDB 

A^oes 

Conservador 

(5 ’ 45)2 =11,65 
2,55 

(—2,80) 2 _ 115 
6,80 

<- 2 - 65)2 =0,92 

7,65 

Moderado 

<^=0,42 

3,75 

(6, 00 ) 2 _ 3 60 
10,00 

( - 7 ’ 25)2 =4,67 

11,25 

Agressivo 

(-6,70) 2 _5 i6 
8,70 

(_3,20)2 =a44 
23,20 

(9,90) 2 _2 76 
26,10 


Assim, temos que: 


3 3 


i=i j =i 


n H~ 

flvl'7 


100 


_ 

^ J 

_ 


3 3 


Is; 57 


100 


-EX 


(restduosij) 2 


~ (frequencias esperadas {j ) 


= 31,76 


Para 4 graus de liberdade, ja que (I — 1) x (J — 1) = (3 — 1) x (3 — 1) = 4, temos, por meio da Tabela D do 
apendice do livro, que jfc — 9,488 (jfi critico para 4 graus de liberdade e para o nivel de significancia de 5%). Dessa 
forma, como o X 2 calculado xhi ~ 31,76 > ^ = 9,488, podemos rejeitar a hipotese nula de que as duas variaveis 
categoricas se associam de forma aleatoria, ou seja, existe associa^ao estatisticamente significante, ao nivel de sig¬ 
nificancia de 5%, entre o perfil do investidor e o tipo de aplica^ao financeira. 

Softwares como o SPSS e o Stata nao oferecem o para os graus de liberdade definidos e determinado nivel 
de significancia. Todavia, oferecem o nivel de significancia do X'hi P ara esses graus de liberdade. Portanto, em vez 
de analisarmos se X'Li > Xc> devemos verificar se o nivel de significancia do Xcd e menor que 0,05 (5%) a fim de 
darmos continuidade a analise de correspondence. Assim: 

Se valoY-P (ou P-value ou Sig. X^d ou P r °b- X 2 cai) < 0,05, a associa^ao entre as duas variaveis categoricas nao se 

da de forma aleatoria. 

O nivel de significancia do X^ai pode ser obtido no Excel por meio do comando Formulas —» Inserir 
Fun^ao — » DIST.QUI, que abrira uma caixa de dialogo conforme mostra a Figura 11.1. 
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Argumentos da fun^ao 




S3 


oist.qui 


X 

131*76 

~m l 

Graifs_.fi be rdade 

b_ 

tel 


* 2 r 14179E-06 

Essa fungao esti disponivel para compatibBidade com o Excel 2007 e versoes anteriores. 

Retoma a probabiiidade de cauda direita da dlstribuic^o quhquadrada, 

Gratis_Jiberdade e o numero de grays de liberdade, um numero entre 1 e 10 A -10, exduindo 
10 A 10. 


Resultado da formula = 2*14179E-06 
Aiuda sobre esta fundo 


OK 


Cancelar 


Figura 11.1 Obten^ao do nfvel de significance de ^ 2 (comando Inserir Fun^ao). 


Conforme podemos observar por meio da Figura 11.1, o valor-P da estatistica % 2 ca i e consideravelmente menor 
que 0,05 (valor-P% 2 ca i = 2,14 x 10~ 6 ), ou seja, perfil do investidor e tipo de aplica^ao financeira nao se combinam 
aleatoriamente. 

Conforme discutimos na se^ao 11.2.2, embora o resultado do teste X 2 tenha mostrado a existencia de um 
padrao de dependencia entre o perfil do investidor e o tipo de aplica^ao financeira, e a analise dos residuos 
padronizados ajustados que revelara os padroes caracteristicos de cada categoria do perfil do investidor segun- 
do o excesso ou a falta de ocorrencias de sua combina^ao com cada categoria do tipo de aplica^ao financeira. 

Logo, com base na expressao (11.8), podemos elaborar aTabela 11.12, que apresenta o calculo do residuo pa- 
dronizado em cada celula. 


Tabela 11.12 Residues padronizados. 


Aplicafao 

Perfil 

Poupan^a 

CDB 

A^oes 

Conservador 

V^6 

oT| 1 

II 

1 

5-7 7 

—7=^ = “1,0 

a/7,7 

Moderado 

5-3,8 n* 

,— =0,6 

V3,8 

i6—10 _ 
vio 

4-H,3 „„ 

—j=^ = -2,2 

VI 1,3 

Agressivo 

2-8,7 „„ 

—7=-=-2,3 

V8/7 

20—23,2 __qj 

V 23,2 

36-26,1 

V26,l 


Na forma matricial, a tabela de residuos padronizados pode ser escrita, com base na expressao (11.9), da se- 
guinte forma: 



' 3,4 

-1,1 

-1,03 

^ padronizado 

0,6 

1,9 

-2,2 


,-2,3 

-0,7 

1,9 J 


Sendo assim, podemos elaborar aTabela 11.13, que apresenta os residuos padronizados ajustados. O valor de 
cada celula e calculado com base na expressao (11.10). 
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A tabela de residuos padronizados pode ser escrita matricialmente, com base na expressao (11.11), da seguin- 
te forma: 



f 4,1 

-1,5 

-1,4" 

E = 

padronizado ajustado 

0,8 

2,8 

-3,4 


v -3,8 

-1,3 

4,0y 


Note, na Tabela 11.13, que os residuos padronizados ajustados com valores positivos superiores a 1,96 es- 
tao em destaque e correspondem ao excesso de ocorrencias em cada celula, ao nivel de significance de 5%, 
conforme discutimos ao final da se^ao 11.2.2. Podemos afirmar, portanto, que a analise dos residuos padroni¬ 
zados ajustados permite caracterizar que o perfil Conservador se associa ao tipo de aplica^ao Poupanga, o perfil 
Moderado, ao tipo de aplica^ao CDB, e o perfil Agressivo, ao tipo de aplica^ao Agoes. 

Visto que o perfil do investidor e o tipo de aplica^ao financeira nao se associam de forma aleatoria (teste % 2 ), 
e estudadas as relates entre cada par de categorias (residuos padronizados ajustados), daremos sequence a analise 
de correspondence simples, com o objetivo de definir as coordenadas de cada uma das categorias para que, por 
meio delas, seja construido o mapa perceptual. Precisamos, dessa forma, calcular os autovalores (inercias principals 
parciais) e autovetores da matriz W, definida na se$ao 11.2.3 por meio da expressao (11.17). Conforme ja discu¬ 
timos, a partir dos quais, serao calculadas as coordenadas das categorias de ambas as variaveis. 

Devemos inicialmente definir a matriz de frequences relativas observadas P,fazendo uso da expressao (11.12). 
Assim, temos que: 


P=- 


100 


•X = 


0,080 

0,040 

0,050 

0,050 

0,160 

0,040 

0,020 

0,200 

0,360 


Por meio da matriz P, podemos elaborar asTabelas 11.14 ell.15, que apresentam as massas das categorias do 
perfil do investidor e do tipo de aplica^ao financeira, chamadas, respectivamente, de column profiles e row profiles. 


Tabela 11.14 Massas - Column profiles . 


Aplicafao 

Perfil 

Poupanga 

CDB 

A^oes 

Massa 

Conservador 

0,533 

0,100 

0,111 

= 0,170 

N 

Moderado 

0,333 

0,400 

0,089 

I L 

= 3 - = 0,250 

N 

Agressivo 

0,133 

0,500 

0,800 

y i 

-=2- = 0,580 

N 

Total 

1,000 

1,000 

1,000 
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Tabela 11.15 Massas - Row profiles. 


^^^^^Aplica£ao 

Perfil 

Poupanga 

CDB 

Agoes 

Total 

Conservador 

0,471 


0,294 

1,000 

Moderado 

0,200 

0,640 

0,160 

1,000 

Agressivo 

0,034 

0,345 

0,621 

1,000 

Massa 

Za 

— 1 - 0,150 

N 

— 1 = 0,400 

N 

— 1 = 0,450 

N 



As massas apresentadas nasTabelas 11.14 e 11.15 influenciam diretamente o calculo das coordenadas de ca- 
da uma das categorias das variaveis, uma vez que, por meio delas, e definida a matriz W e, consequentemente, 
seus autovalores e autovetores. E a partir das massas e da configurapao de suas proporpoes em linha e em coluna, 
portanto, que o mapa perceptual da analise de correspondence comepa a tomar forma.Vejamos de que maneira, 
tomando como exemplo a Tabela 11.15 (row profiles). 

Inicialmente, vamos elaborar um grafico que apresenta os percentuais em linha para cada categoria de per- 
fil do investidor (Figura 11.2), do qual se pode analisar a aloca^ao de recursos em cada uma das aplicapoes fi- 
nanceiras para dado perfil. Em outras palavras, essa visualiza^ao de frequences relativas permite elaborar uma 
comparapao mais precisa de como sao alocados os recursos financeiros para cada perfil de investidor. 



Figura 11 .2 Frequences relativas observadas de aplica^ao 
financeira por perfil do investidor (rowprofiles). 


O grafico da Figura 11.2 apresenta, em seu eixo horizontal, os tipos de aplica^ao financeira e, em seu eixo ver¬ 
tical, os percentuais de cada tipo de aplica^ao por perfil de investidor. Seguindo a logica proposta por Greenacre 
(2008), vamos, na sequencia, construir um grafico tridimensional, em que cada eixo corresponde aos tres ti¬ 
pos de aplica^ao financeira, conforme mostra a Figura 11.3. Dessa forma, plotamos nesse grafico as coordena¬ 
das (0,471; 0,235; 0,294) para a categoria Conservador, (0,200; 0,640; 0,160), para a categoria Moderado, e (0,034; 
0,345; 0,621), para a categoria Agressivo. Alem disso, tambem plotamos as coordenadas (0,150; 0,400; 0,450) para 
a massa media do perfil do investidor. 
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Figure 11 .3 Representa^ao tridimensional das posi^oes do perfil do investidor em rela^ao aos tipos de aplicagao financeira. 

Ainda de acordo com Greenacre (2008), sobre a Figura 11.3 vamos construir um triangulo equilatero cujos 
vertices sao as coordenadas (1; 0; 0), (0; 1,0) e (0; 0; 1), ou seja, estao situados sobre cada um dos eixos e represen- 
tam perfis concentrados somente em um tipo de aplica^ao financeira. Por exemplo, o vertice com coordenada (1; 
0; 0) corresponde a um perfil de investidor que apresenta apenas aplica^oes financeiras em poupan^a. Ja o vertice 
com coordenada (0; 0; 1) corresponde a outro perfil que possui apenas aplica^oes financeiras em a^oes. Essa nova 
representa^ao grafica, conhecida por sistema triangular de coordenadas, encontra-se na Figura 11.4. 



Figure 11.4 Sistema triangular de coordenadas para o row profile. 
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O sistema triangular de coordenadas possibilita que projetemos os pontos referentes a cada uma das catego- 
rias do perfil do investidor sobre o triangulo equilatero, o que facilita a visualizagao de suas posigoes relativas. Isso 
gera o grafico da Figura 11.5. 

Por meio desse grafico, temos condigoes de estudar a posigao relativa de cada perfil de investidor em rela- 
gao ao tipo de aplicagao financeira. Assim, podemos verificar que, enquanto o perfil Conservador e o que mais 
se aproxima da aplicagao Poupanga , o Moderado e o que mais se aproxima da aplicagao CDB. Por fim, o perfil 
Agressivo e o que mais se aproxima do vertice correspondente a aplicagao Agoes. O mais importante e que a po- 
sigao relativa de cada ponto correspondente a cada perfil do investidor obedece a proporgao de frequencias rela¬ 
tivas observadas (massas), apresentadas naTabela 11.15 (rowprofiles). 

Nesse sentido, tomemos, por exemplo, a categoria Conservador , cujas coordenadas sao (0,471; 0,235; 0,294). 
Observe, por meio da Figura 11.6, que a posi^ao relativa dessa categoria no sistema triangular de coordenadas 
obedece a essa propo^ao quando de sua proje^ao para cada um dos eixos respectivos as categorias Poupanga, 
CDB e Agoes, uma vez que linhas paralelas a esses eixos confluem para determinar a posi^ao exata do ponto re- 
ferente a categoria Conservador. Obviamente, a mesma logica pode ser aplicada as categorias Moderado e Agressivo. 




Poupanga 



V_ J 

Figura 11.5 Projegao das categorias do perfil do investidor no sistema triangular de coordenadas. 


Segundo Greenacre (2008), na reaUdade, qualquer combinagao de duas das tres coordenadas dos perfis e suficien- 
te para posiciona-los no sistema triangular de coordenadas, para uma variavel com tres categorias, sendo a terceira 
coordenada desnecessaria, uma vez que a soma em linha das frequencias relativas observadas sera sempre igual a 1. 



Figura 11.6 Posigao relativa da categoria Conservador no sistema triangular de coordenadas. 
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O sistema triangular de coordenadas somente pode ser utilizado para variaveis com tres categorias. Como a 
dimensionalidade de um sistema de coordenadas e sempre igual ao numero de categorias das variaveis menos 
1, podemos comprovar, para nosso exemplo, que estamos lidando com um mapa, de fato, bidimensional (biplot). 

Podemos, portanto, elaborar o grafico do sistema triangular de coordenadas dando enfase para o ponto com 
coordenadas (0,150; 0,400; 0,450), que corresponde a massa media do perfil do investidor. Esse grafico encontra- 
-se na Figura 11.7a. 



Figura 11.7 Posigoes relativas das massas medias no sistema triangular de coordenadas. 


Analogamente, podemos fazer uso das massas apresentadas na Tabela 11.14 (column profiles) para elaborar o 
grafico da Figura 11.7b, em que cada vertice corresponde agora a cada uma das categorias do perfil de investi¬ 
dor, sendo plotadas as coordenadas (0,533; 0,333; 0,133) para a categoria Poupanga , (0,100; 0,400; 0,500), para a 
categoria CDB, e (0,111; 0,089; 0,800), para a categoria Agoes. No grafico da Figura 11.7b, e dada enfase para o 
ponto com coordenadas (0,170; 0,250; 0,580), que corresponde a massa media do tipo de aplica^ao financeira. 

Dessa maneira, podemos verificar como as propor^oes das massas em linha e em coluna definem as posi^oes 
relativas de cada categoria no mapa perceptual. Resta-nos, portanto, definir os eixos do mapa a fim de que o per- 
centual da inercia principal parcial da primeira dimensao seja maximizado. 

Para tanto, conforme discutimos ao final da se^ao 11.2.3, devemos definir uma matriz W e, a partir dela, cal- 
cular dois autovalores (X\ e A%) por meio do metodo Eckart-Young, correspondentes as duas inercias principals 
parciais das duas dimensoes do mapa perceptual. 

Nesse sentido, precisamos definir as duas matrizes diagonals, D t e D c , que contem, respectivamente, os valores 
das massas medias do tipo de aplica^ao financeira e do perfil do investidor em suas diagonals principals, em con¬ 
cordance com as expressoes (11.13) e (11.14). 


D/ — 


^0,170 

0 

V 


0 


0 0 ^ 

0,250 0 

0 0,580 y 


e 


D = 


f 0,150 

0 

V o 


0 

0,400 

0 


0 > 
0 

0,450 y 


Note que, enquanto os valores da diagonal principal da matriz D c sao oriundos da Tabela 11.15 (row 
profiles), que tambem geraram o grafico da Figura 11.7a, os valores da diagonal principal da matriz D t sao 
provenientes da Tabela 11.14 (column profiles), que tambem serviram de base para que fosse construido o 
grafico da Figura 11.7b. 

Ainda de acordo com o discutido na se^ao 11.2.3, a decomposi^ao inercial para a elabora^ao da analise de 
correspondence consiste em calcular os autovalores de uma matriz W = A f A, em que A e definida de acordo 
com a expressao (11.15), reproduzida novamente a seguir: 

a=d ( _1/2 -(p-/c')-d; 1/2 

Precisamos, portanto, calcular os valores das celulas da matriz P -Id, com base na expressao (11.16). Logo, temos que: 
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^(0,080 - 0,170 x 0,150) (0,040-0,170x0,400) (0,050-0,170x0,450) 

P —Ic = (0,050-0,250x0,150) (0,160-0,250x0,400) (0,040-0,250x0,450) 
v (0,020 - 0,580 X 0,150) (0,200 - 0,580 x 0,400) (0,360 - 0,580 X 0,450 )) 
r 0,055 -0,028 —0,027^ 

P -lc'= 0,013 0,060 -0,073 

^—0,067 -0,032 0,099 

Note que as somatorias dos valores para cada linha e cada coluna da matriz P —Id sao, obviamente, sempre 
iguais a 0. Obtida a matriz, podemos chegar a matriz A: 


(0,170)'* 0 

0 (0,250)" 

0 0 


0 

0,055 -0,028 

-0,027 


0 

• 0,013 0,060 

-0,073 


(0,580)"^ 

-0,067 -0,032 

V 

0,099 

) 



r 0,341 -0,107 

-0,096 

A= 

0,065 0,190 

-0,216 


^—0,227 -0,066 

0,194 


^(0,150)" 

0 

0 

V 

A 


0 

(0,400)' 

0 


0 

0 

(0,450)' 


Conforme mencionamos na se$ao 11.2.3, podemos realmente comprovar que os valores das celulas da matriz 
A sao iguais aos das respectivas celulas da matriz E padronizado divididos pela raiz quadrada do tamanho da amostra 

(Vn = io). 

A matriz W pode ser obtida da seguinte maneira: 


W = A A= 


f 0,341 
-0,107 

V 


0,065 -0,227 

0,190 -0,066 

0,096 -0,216 0,194, 

0,172 -0,009 -0,091 s 
W =1-0,009 0,052 -0,044 

0,093 


0,341 -0,107 

0,065 0,190 

-0,227 -0,066 


-0,096^ 

-0,216 

0,194, 


-0,009 0,052 

y-0,091 -0,044 


Os calculos para obten^ao das frequencias absolutas esperadas (matriz X e ), dos residuos (matriz E), da estatistica 
X 2 , dos residuos padronizados (matriz E padronizado ), das massas e matrizes diagonais D* e D c , da matriz A e da matriz 
W tambem podem ser verificados por meio do arquivo Perfil_Investidor X Aplica^ao CalculoMatrizes.xls. 
Com base na expressao (11.18), podemos obter os autovalores da matriz W, de modo que: 

I A 2 -0,172 0,009 


0,009 
0,091 

de onde chegamos aos seguintes autovalores: 


0,091 
A 2 -0,052 0,044 

0,044 A 2 -0,093 


I A 2 = 0,233 
{A 2 = 0,084 


=0 


valores das inercias principals parciais das duas dimensoes que definem a matriz A 2 , de acordo com a expressao (11.20): 

- 0,233 0 

A = 

^ 0 0,084; 

Logo, a inercia principal total e I T — A 2 + A 2 = 0,318. Por meio da expressao (11.7), tambem podemos veri- 
ficar que: 

31,76 
T N 100 


-=0,318 


Os valores singulares de cada dimensao sao, portanto, iguais a: 
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JAj = 0,483 
[A 2 = 0,291 

ATabela 11.16 apresenta a decomposigao inercial para as duas dimensoes. 


Tabela 11.16 Decomposigao inercial para as duas dimensoes. 


Dimensao 

Valor Singular 

Inercia Principal 
Parcial (A 2 ) 

Percentual da Inercia 
Principal Total 

1 

0,483 

0,233 

73,42% 

2 

0,291 

0,084 

26,58% 

Total 


0,318 

100 ,00% 


Por meio da analise da Tabela 11.16, podemos afirmar que as dimensoes 1 e 2 explicam, respectivamente, 
73,42% (0,233 / 0,318) e 26,58% (0,084 / 0,318) da inercia principal total. Na analise de correspondence, como 
os valores singulares da primeira dimensao sao maximizados, serao sempre maiores que os da segunda dimensao, 
e assim sucessivamente, quando houver um numero maior de dimensoes. Portanto, o percentual da inercia prin¬ 
cipal total correspondente a primeira dimensao sera sempre maior que o obtido para as dimensoes subsequentes. 

E importante mencionar que, quanto maior a inercia principal total, maior sera a associagao entre as categorias 
dispostas em linha e em coluna, o que afetara a disposigao dos pontos no sistema triangular de coordenadas. De 
forma ilustrativa, imaginemos, para efeitos didaticos, tres situates provenientes de tres diferentes tabelas de con¬ 
tingency, conforme mostra a Figura 11.8. 



c) Maxima Associagao 


Tabela de Contingency: 



Poupanga 

CDB 

Agoes 

Conservador 

15 

0 

0 

Moderado 

0 

40 

0 

Agressivo 

0 

0 

45 


t = 200,00 

Inercia Principal Total = 2,000 


Poupanga 



Agoes 


Figura 11.8 Tabelas de contingencia, inercias principais totais e o sistema triangular de coordenadas. 
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Por meio da Figura 11.8, podemos verificar que, quanto maior a inercia principal total, maior a associa^ao 
entre as duas variaveis categoricas. Enquanto a Figura 11.8a mostra exatamente os dados do nosso exemplo, com 
foco em row profiles (exatamente igual a Figura 11.5), as Figuras 11.8b e 11.8c mostram situates opostas entre 
si, com inexistencia de associa^ao e associa^ao maxima, respectivamente. Portanto, podemos afirmar que, quanto 
maior a inercia principal total (e, obviamente, o % 2 ), maior sera a dispersao dos pontos no mapa perceptual e mais 
visivel sera a associa^ao entre as variaveis cujas categorias sao representadas por esses pontos. Note que a soma 
de cada coluna em cada uma das tres situates nao e alterada, o que faz as massas medias do perfil do investidor 
serem sempre iguais nas tres situates. 

Seguindo a logica apresentada na se^ao 11.2.4, podemos, portanto, partir para o calculo das coordenadas (sco¬ 
res) das categorias das duas variaveis em analise para os dados do nosso exemplo. Dessa forma, para calcularmos 
os autovetores da matriz W com base nos autovalores e A|, devemos resolver o sistema de equates para cada 
uma das dimensdes. Sendo assim, temos que: 


• Primeira Dimensao (Aj = 0,233): 


De onde vem que: 


0,061- +0,009- v 2 +0,091- v 3 =0 

< 0,009- v x +0,181- v 2 +0,044- v 3 =0 
0,091- v x +0,044- v 2 +0,140- v 3 =0 


f 


v i = 


0,822^ 

0,093 


—0,562 ) 


Logo, por meio da expressao (11.22), podemos escrever que: 


f [0,341 X 0,822] + [(-0,107) X 0,093]+[(-0,096) X (-0,562)] 1 
1 0,483 J 

f [0,065 X 0,822]+[0,190 x 0,093]+[(-0,216) X (-0,562)] } 

1 0,483 J 

[ [(-0,227) X 0,822] + [(-0,066) X 0,093] + [ 0,194 X (-0,562)] 
1 0,483 


f 

«i = 

V 


0,672^ 

0,398 

0,625 y 


• Segunda Dimensao (A| = 0,084): 


—0,088 • Vj +0,009- v 2 + 0,091 • v 3 — 0 
< 0,009- Vj + 0,032- v 2 +0,044- v 3 =0 
0,091- v t + 0,044- v 2 -0,009- v 3 =0 


De onde vem que: 


f 


0,418 
-0,769 
v 0,484 


Analogamente, temos que: 
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r [ [0,341x0,418] + [(-0,107)x(-0,769)]+[(-Q,096)x0,484] V 
[ 0,291 J 

f [0,065x0,418] + [0,190x(-0,769)]+[(-0,216)x0,484] } 

[ 0,291 J 

f [(-0,227) X 0,418]+[(-0,066) x(—0,769]+ [0,194x0,484] 1 
vl 0,291 /J 


«2 = 


f 0,616^ 
-0,769 
V 0,172, 


Nao serao aqui apresentados os calculos,porem pode-se facilmente verificar, com base nos autovetores calcu- 
lados, que as expressoes (11.21) a (11.26) sao satisfeitas. 

Definidos a matriz diagonal de autovalores A 2 e os autovetores U e V, as coordenadas das abcissas e das orde- 
nadas de cada uma das categorias da variavel em linha e da variavel em coluna na tabela de contingencia podem 
ser calculadas por meio das expressoes (11.27), (11.28), (11.30) e (11.31), de acordo como segue: 


• Variavel em linha na tabela de contingencia (perfil do investidor): 

• Coordenadas das abcissas: 


1 

^(0,170)“2 0 0 " 


f 0,672^ 

X 

II 

"cT 

V 

00 

u> 

0 (0,250)~> 0 


0,398 

1 

v 0 0 (0,580)*, 


v —0,625 j 


( 



1,132 > 

0,553 

0,570 y 


que sao as coordenadas, no mapa perceptual, das abcissas das categorias Conservador, Moderado e Agressivo do perfil 
do investidor. 


• Coordenadas das ordenadas: 



''(0,170)"* 

0 

0 ^ 


' 0,616^ 

Y,=V0,291- 

0 

(0,250)"* 

0 


-0,769 


v 0 

0 

(0,580)"*, 


v 0,172 y 


Y,= 


f 0,805 ^ 
-0,829 

V 0,122 


que sao as coordenadas, no mapa perceptual, das ordenadas das categorias Conservador, Moderado e Agressivo do 
perfil do investidor. 


• Variavel em coluna na tabela de contingencia (tipo de aplica^ao financeira): 

• Coordenadas das abcissas: 



''(0,150)"* 0 0 ) 


f 0,822^ 

X C = V0,483- 

0 (0,400)~* 0 


0,093 


v 0 0 (0,450)"*; 


^-0,562, 
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r 

X.= 

V 


1,475^ 

0,102 

■0,582, 


que sao as coordenadas, no mapa perceptual, das abcissas das categorias Poupanga , CDB e Agoes do tipo de apli- 
ca^ao financeira. 


• Coordenadas das ordenadas: 



+,150) _I 0 0 > 


f 0,418^ 

Y c =+,291 • 

0 (0,400)"* 0 


-0,769 


v 0 0 (0,450)4 


v 0,484, 


f 0,582^ 
-0,655 
v 0,389, 


que sao as coordenadas, no mapa perceptual, das ordenadas das categorias Poupanga, CDB e Agoes do tipo de apli- 
ca^ao financeira. 

ATabela 11.17, a seguir, apresenta as coordenadas das categorias das duas variaveis de forma consolidada. 


Tabela 11.17 Coordenadas ( scores ) das categorias das variaveis. 


Variavel 

Categoria 

Coordenadas da l a 
Dimensao (Abcissas) 

Coordenadas da 2 a 
Dimensao (Ordenadas) 

Perfil do 
Investidor 

Conservador 

X/1 = 1,132 

y ;i = 0,805 

Moderado 

x /2 = 0,553 

y/ 2 = -0,829 

Agressivo 

x /3 = -0,570 

7 b = 0,122 

Tipo de 
Aplica^ao 
Financeira 

Poupanga 

x d = 1,475 

7a = °> 582 

CDB 

x c2 = 0,102 

y c2 = -0,655 

A^oes 

x c3 = -0,582 

y & = 0,389 


Conforme discutimos na se^ao 11.2.4 quando da apresenta^ao das expressoes (11.33) e (11.34), as coordena¬ 
das das categorias da variavel em linha podem ser calculadas a partir das coordenadas das categorias da variavel 
em coluna para determinada dimensao e vice-versa. Para tanto, devemos multiplicar a matriz de massas pelo vetor 
de coordenadas de uma variavel e dividir pelo correspondente valor singular da dimensao em analise, para que 
seiam obtidas as coordenadas das categorias da outra variavel.Veiamos dois exemplos, fazendo uso das expressoes 
(11.33) e (11.34): 


[0,471 x 1,475] + [0,235 X 0,102] + [0,294 X (-0,582)] 
0,483 


1,132 


[0,100x0,805] + [0,400x(-0,829)]+ [0,500x0,122] n 

y = -= — 0,655 

/c2 0,291 


Finalmente, com base nas expressoes (11.35) e (11.36), temos condi^oes, por meio das coordenadas e das mas¬ 
sas em linha e em coluna apresentadas nasTabelas 11.14 e 11.15, de calcular, apenas para efeitos de verificagao, os 
valores singulares obtidos anteriormente. Sendo assim, temos que: 

X x = [(1,132) 2 X 0,170] + [(0,553)2 x 0,250] + [(-0,570) 2 x 0,580] = 0,483 


X x = [(1,475) 2 x 0,150] + [(0,102) 2 x 0,400] + [(-0,582) 2 x 0,450] = 0,483 
e 

^ = [(0,805)2 x 0,170] + [(-0,829)2 x 0,250] + [(0,122) 2 x 0,580] = 0,291 
^ = [(0,582)2 x 0,150] + [(-0,655)2 x 0,400] + [(0,389) 2 x 0,450] = 0,291 
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Logo, com base nas coordenadas calculadas (scores), temos, enfim, condigoes de construir o mapa perceptual, a 
principal contribuigao da analise de correspondence. A Figura 11.9 apresenta o mapa construido por meio das 
coordenadas consolidadas naTabela 11.17. 


- 4 - 0 . 


, Agoes 


0,5 A 


^Agressivo 

-r-Or©* 


-0,5 


-0,5 


-4-0- 


o 

Conservador 


Poupanga 


.CDB 


0,5 1,0 1,5 


Moderado 


Figura 11.9 Mapa perceptual para perfil do investidor e tipo de aplicagao financeira. 


Com base no mapa perceptual da Figura 11.9, podemos verificar que o perfil Conservador apresenta mais forte 
associagao com o tipo de aplicagao financeira Poupanga. Alem disso, enquanto o perfil Moderado associa-se, com 
maior frequencia, a aplicagao do tipo CDB, o perfil Agressivo associa-se mais fortemente com o tipo de investi- 
mento Agoes. 

A Figura 11.70, no apendice deste capitulo, apresenta as configurates mais comuns que um mapa per¬ 
ceptual de uma analise de correspondence simples pode assumir, em fungao das caracteristicas da tabela de 
contingencia. 

Voltando a analise do mapa perceptual da Figura 11.9, os achados estao, obviamente, de acordo com o discu- 
tido quando da analise dos residuos padronizados ajustados, reproduzidos novamente a seguir, naTabela 11.18. 


Tabela 11.18 Residuos padronizados ajustados. 


Aplicagao 

Perfil 

Poupanga 

CDB 

Agoes 

Conservador 

4,1 

-1,5 

-1,4 

Moderado 

0,8 

2,8 

-3,4 

Agressivo 

-3,8 

-1,3 

4,0 


Seguindo a logica apresentada por Batista, Escuder e Pereira (2004), para auxiliar a interpretagao do mapa per¬ 
ceptual, vamos desenhar uma linha de projegao para a caracterizagao do tipo de aplicagao financeira Poupanga 
(da Origem do mapa perceptual em diregao a Poupanga), nela se projetando as categorias do perfil do investidor 
Conservador, Moderado e Agressivo, conforme mostra a Figura 11.10. As projegoes das categorias do perfil do investi¬ 
dor sobre a linha Origem-Poupanga correspondem aos residuos padronizados ajustados, ou seja, 4,1 (Conservador), 
0,8 (Moderado) e —3,8 (Agressivo). As diferengas de escala entre essas projegoes sobre a linha Origem-Poupanga e os 
valores dos residuos padronizados sao devidas a distorgao da projegao de um espago tridimensional original para o 
espago bidimensional utilizado para que fosse construido o mapa perceptual. 

Pode-se repetir o mesmo exercicio imaginando linhas de projegao para quaisquer categorias do perfil do in¬ 
vestidor ou do tipo de aplicagao financeira. No mapa perceptual da Figura 11.11, sao projetadas, por sua vez, as 
categorias do tipo de aplicagao financeira sobre a linha Origem-Agressivo, em que as projegoes correspondem 
aos residuos padronizados ajustados -3,8 (Poupanga),-1, 3 (CDB) e 4,0 (Agoes). Da mesma forma, as diferengas de 
escala entre essas projegoes sobre a linha Origem-Agressivo e os valores dos residuos padronizados devem-se a 
distorgao da projegao do espago tridimensional original para o espago bidimensional. 
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Figura 11.10 Mapa perceptual para perfil do investidor e tipo de aplica^ao financeira, com foco na categoria Poupanqa. 



Figura 11.11 Mapa perceptual para perfil do investidor e tipo de aplica^ao financeira, com foco na categoria Agressivo. 

Podemos, portanto, concluir que ha diferen^as entre as formas de aplica^ao financeira de pessoas com diferen- 
tes perfis de investimento e que essas diferen^as podem, de fato, ser identificadas e caracterizadas, 

Enquanto na se^ao 11.4.1 serao apresentados os procedimentos para elabora^ao da analise de correspondencia 
simples no SPSS, assim como seus resultados, na se^ao 11.5.1 serao apresentados os comandos para elabora^ao da 
tecnica no Stata, com respectivos outputs. 

Elaborado o teste % 2 , avaliadas as associates entre as categorias das duas variaveis e construido o mapa per¬ 
ceptual, vamos partir para o estudo das relates entre categorias de mais de duas variaveis, por meio da analise 
de correspondencia multipla. 

11.3. ANALISE DE CORRESPONDENCE MULTIPLA 

A analise de correspondencia multipla, tambem conhecida como ACM, e uma tecnica de analise multivariada 
que representa uma extensao natural da analise de correspondencia simples (Anacor), uma vez que permite que 
sejam estudadas as associates entre mais de duas variaveis categoricas e entre suas categorias, bem como a in- 
tensidade dessas associates. 

Ao contrario da Anacor, tecnica de analise bivariada, nao e possivel verificar a existencia de associates en_ 
tre mais de duas variaveis simultaneamente para a elabora^ao da analise de correspondencia multipla, visto que 
a estatistica do teste X 2 & calculada apenas com base em uma tabela de contingencia bidimensional. Isso nao im¬ 
pede, por outro lado, que, em fun^ao das massas das categorias de cada uma das variaveis a serem inseridas na 
analise de correspondencia multipla, sejam calculados autovalores utilizados para que se definam as coordenadas 
daquelas categorias em um mapa perceptual. Portanto, a logica da analise de correspondencia multipla e seme- 
lhante a estudada para a analise de correspondencia simples. Ressalta-se que so devem ser inseridas na analise de 
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correspondence multipla, entretanto, as variaveis que apresentarem associa^ao, verificada por meio do teste ^ 2 , 
com pelo menos uma das demais variaveis. Nesse sentido, e recomendavel que seja elaborado um teste X 2 
para cada par de variaveis antes da elabora^ao de uma analise de correspondencia multipla. Se uma 
delas nao apresentar associa^ao estatisticamente significante a nenhuma das demais variaveis, a determinado nivel 
de significance, recomenda-se que seja excluida da analise de correspondencia multipla. 

Enquanto na se^ao 11.3.1 serao apresentados os principals conceitos pertinentes a tecnica, na se^ao 11.3.2 
sera elaborado um exemplo pratico resolvido por meio de solu^ao algebrica. 

11.3.1. Nota^ao 

Para que seja elaborada a analise de correspondencia multipla, e necessario apresentar o conceito de matriz 
binaria. Imaginemos um banco de dados com N observances e Q variaveis (Q > 2), e que cada variavel q (q = 
1,..., Q) possua J q categorias. Logo, o numero total de categorias envolvidas em uma analise de correspondencia 
multipla e: 

Q 

(11.38) 

ATabela 11.19 apresenta, de forma esquematica, um banco de dados com N observances e Q (Q > 2) varia¬ 
veis categoricas. 


Tabela 11.19 Banco de dados com N observances e Q (Q > 2) variaveis categoricas. 


Observanao 

Variavel q 

1 

2 


Q 

1 

categoria 1 

categoria 4 


categoria 2 

2 

categoria 2 

categoria 1 

categoria 1 

3 

categoria 1 

categoria 3 

categoria 1 

4 

categoria 3 

categoria 2 

categoria 2 

: 



: 

N 

categoria 2 

categoria 4 

categoria 2 

Numero de 
categorias J q 

3 

4 

— 

2 


Note, com base no banco de dados apresentado na Tabela 11.19, que, por exemplo,^ = 3,J 2 = 4 e Jq = 2. Por 
meio desse banco de dados, e possivel construir um novo banco de dados apenas com variaveis binarias, criadas 
com base na codificanao das categorias das variaveis para cada observanao. Assim, por exemplo, para a observanao 
1, com respostas para as categorias das variaveis 1, 2,..., Q sendo, respectivamente, 1, 4,..., 2, teremos a codifica¬ 
nao binaria representada, respectivamente, por (1 0 0), (0 0 0 1),..., (0 1). ATabela 11.20 apresenta a codificanao 
binaria para as observances apresentadas na Tabela 11.19. 


Tabela 11.20 Codificanao binaria das categorias das variaveis originais. 


Observanao 

Variavel 1 

Variavel 2 


Variavel Q 

cat. 1 

cat. 2 

cat. 3 

cat. 1 

cat. 2 

cat. 3 

cat. 4 


cat. 1 

cat. 2 

1 

1 

0 

0 

0 

0 

0 

1 


0 

1 

2 

0 

1 

0 

1 

0 

0 

0 


1 

0 

3 

1 

0 

0 

0 

0 

1 

0 


1 

0 

4 

0 

0 

1 

0 

1 

0 

0 


0 

1 






N 

0 

1 

0 

0 

0 

0 

1 


0 

1 
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ATabela 11.20 com a codifica^ao binaria das categorias das variaveis originais e chamada de matriz bina- 
ria Z, por meio da qual pode ser definida a inercia principal total da analise de correspondence multipla, cujo 
calculo e bastante simples e depende apenas da quantidade total de variaveis inseridas na analise e do numero 
de categorias de cada uma delas, nao dependendo das frequences absolutas das categorias. Conforme discute 
Greenacre (2008), a matriz binaria Z e composta por matrizes Z q agrupadas lateralmente, uma para cada variavel 
q. Como cada matriz Z q apresenta somente um valor 1 em cada linha, todos os perfis linha se situam nos vertices 
de um sistema de coordenadas, e, portanto, estamos diante de um exemplo de matriz em que ocorrem as maiores 
associates possiveis entre linhas e colunas, conforme discutimos na se^ao 11.2.5. Como consequence, para cada 
matriz Z q , a inercia principal parcial da dimensao principal sera sempre igual a 1, e a inercia principal total, igual 
a J q — 1. Dessa forma, a inercia principal total de Z corresponde a media das inercias principais totais das matrizes 
Z q que a compoem, ou seja, pode ser obtida por meio da seguinte expressao: 


X Ur 1 ) 

j =1 _ 


= J-Q 

Q 


(11.39) 


Por meio do metodo da codifica^ao binaria, pode-se supor que a matriz Z seja uma tabela de con¬ 
tingencia de uma analise de correspondencia simples, a partir da qual podem ser definidos os valores das 
inercias principais parciais de cada uma das J - Q dimensoes. Consequentemente, conforme estudamos na se^ao 
11.2, por meio dos autovalores e autovetores calculados a partir da matriz binaria Z (considerada uma tabela de 
contingencia de uma Anacor), podem ser definidas as coordenadas de cada uma das categorias das variaveis inse¬ 
ridas na analise de correspondencia multipla, o que permite que seja construido o mapa perceptual. As coorde¬ 
nadas geradas por meio do metodo da matriz binaria sao conhecidas como coordenadas-padrao. 

Ainda segundo Greenacre (2008), a analise de correspondencia multipla pode tambem ser elaborada por meio 
de metodo alternativo, combinadas, em uma unica matriz, as tabelas de contingencia com os cruzamentos de to- 
dos os pares de variaveis. Essa matriz resultante, quadrada e simetrica, e conhecida por matriz de Burt. 

Considerando a matriz binaria Z [Z u Z 2 , Zq], a matriz de Burt pode ser definida, portanto, de acordo 
como segue: 



B = Z' 

z 


f Z V Z ! 

Z Y Z 2 

- zvz Q > 


Z V Z 1 

Z 2 ^2 

Z 2-Z Q 


, Z Q' Z 1 

Z Q- Z 2 

Z Q Z Qy 

JXJ 


(11.40) 


(11.41) 


Segundo Naito (2007), enquanto cada submatriz Z q • Z q e uma matriz diagonal, cujos elementos sao, respec- 
tivamente, iguais a soma das colunas da matriz Z q , cada submatriz Z' q • Z(q ^ q') corresponde a uma tabela de 
contingencia com os cruzamentos de cada variavel q com cada variavel q\ Essa estrutura permite comparar os 
comportamentos das frequences absolutas observadas para todos os pares de variaveis, ao contrario do que ocor- 
re com a matriz binaria Z. 

Considerando a matriz de Burt (B) uma tabela de contingencia, podemos tambem elaborar uma 
analise de correspondencia simples, da qual se pode verificar que as coordenadas das categorias das variaveis cor¬ 
respondent as coordenadas-padrao geradas por meio do metodo da matriz binaria Z, porem com valores em 
escala reduzida. Esse fato, segundo discute Greenacre (2008), faz os mapas perceptuais construidos a partir das 
coordenadas geradas pelo metodo da matriz de Burt serem mais reduzidos e com pontos mais concentrados em 
torno da Origem, o que, em alguns casos, pode prejudicar a analise visual das associates entre as categorias, em- 
bora isso nao afete o estudo da rela^ao entre as variaveis. 

As coordenadas geradas por meio do metodo da matriz de Burt sao conhecidas por coordena¬ 
das principais, e a rela^ao entre essas coordenadas principais e as coordenadas-padrao obtidas pelo metodo da 
matriz binaria e dada pela seguinte expressao: 

(coord, principal^ k ) B = X k ■ (coord. padrao dim fe ) z 


(11.42) 
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ou seja, as coordenadas principais de determinada dimensao sao as coordenadas-padrao multiplicadas pela raiz 
quadrada da inercia principal parcial daquela dimensao. Como as inercias principais parciais sao menores que 1, 
explica-se a redu^ao de escala do mapa perceptual construido a partir do metodo da matriz de Burt. 

Enquanto elaboraremos a analise de correspondence multipla fazendo uso das coordenadas principais no 
SPSS, a mesma tecnica sera elaborada com base nas coordenadas-padrao obtidas pelo metodo da matriz binaria 
no Stata, conforme poderemos analisar nas seqoes 11.4.2 e 11.5.2, respectivamente. 

Introduzidos esses conceitos, vamos apresentar um exemplo com o mesmo banco de dados utilizado quando 
da elabora^ao da analise de correspondence simples, porem com a inclusao de uma terceira variavel categorica. 

11.3.2. Exemplo pratico da analise de correspondencia multipla (ACM) 

Imagine agora que nosso professor tenha o interesse em estudar as associates eventualmente existentes entre 
o perfil de investidor de seus alunos, o tipo de aplica^ao financeira em que alocam seus recursos e uma terceira 
variavel categorica, correspondente ao estado civil de cada um deles. Portanto, o banco de dados, parcialmente 
apresentado naTabela 11.21, traz, alem das variaveis estudadas quando da elaboraqao da analise de correspon¬ 
dencia simples (perfil e aplicagao ), uma nova variavel correspondente ao estado civil de cada estudante, com apenas 
duas categorias (solteiro ou casado). 


Tabela 11.21 Exemplo: Perfil do investidor, tipo de aplicagao financeira e estado civil. 


Estudante 

Perfil do Investidor 

Tipo de Aplica 9 ao 
Financeira 

Estado Civil 

Gabriela 

Conservador 

Poupan^a 

Casado 

Luiz Felipe 

Conservador 

Poupan^a 

Casado 

: 

Renata 

Conservador 

CDB 

Casado 

Guilherme 

Conservador 

A^oes 

Solteiro 

: 

Kamal 

Moderado 

Poupan^a 

Solteiro 

Rodolfo 

Moderado 

CDB 

Solteiro 


Raquel 

Moderado 

CDB 

Casado 

Anna Luiza 

Moderado 

Aqoes 

Solteiro 

i 

Nuno 

Agressivo 

Poupan^a 

Solteiro 

Braulio 

Agressivo 

CDB 

Solteiro 


Estela Agressivo 

Aqoes 

Solteiro 


O banco de dados completo pode ser acessado no arquivo Perfil__Investidor x Aplicagao x Estado_Civil. 
xls. Nesse exemplo, temos N — 100 observaqoes e Q = 3 variaveis, sendo que cada variavel possui, respectiva¬ 
mente, J x — 3 categorias, J 2 — 3 categorias e J 3 = 2 categorias. Portanto, o numero total de categorias envolvidas 
nessa analise de correspondencia multipla e J — 8. 

Antes de elaborarmos a analise de correspondencia multipla propriamente dita, apresentamos, nas Tabelas 
11.22,11.23 e 11.24, as tabelas de contingencia entre cada par de variaveis, com destaque para os resultados dos 
respectivos testes j£ 2 . 


Tabela 11.22 Tabela de contingencia para perfil do investidor e tipo de aplicagao financeira. 


Aplicagao 

Perfil 

Poupanqa 

CDB 

Aqoes 

Total 

Conservador 

8 

4 

5 

17 

Moderado 

5 

16 

4 

25 

Agressivo 

2 

20 

36 

58 

Total 

15 

40 

45 

100 

X 2 = 31,764 (valor-P xli = 0,000) 
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Tabela 11.23 Tabela de contingencia para perfil do investidor e estado civil. 


^^~~~'^-^JEstado Civil 
Perfil 

Solteiro 

Casado 

Total 

Conservador 

5 

12 

17 

Moderado 

11 

14 

25 

Agressivo 

41 

17 

58 

Total 

57 

43 

100 

x 2 = 11,438 (valor-P xii = 0,003) 


Tabela 11.24 Tabela de contingencia para tipo de aplica^ao financeira e estado civil. 


^^jistado Civil 
Aplica^ao 

Solteiro 

Casado 

Total 

Poupanga 

5 

10 

15 

CDB 

16 

24 

40 

Agoes 

36 

9 

45 

Total 

57 

43 

100 

= 17,857 (valor-P xli = 0,000) 


Com base nos resultados dos testes £ 2 , podemos afirmar que existem associates estatisticamente significantes, 
ao nivel de significance de 5%, entre cada par de variaveis e, portanto, as tres variaveis serao incluidas na analise 
de correspondencia multipia. Caso uma delas nao se associasse a nenhuma outra a determinado nivel de signifi¬ 
cancia, seria recomendavel sua exclusao da analise de correspondencia multipia. 

Conforme discutimos na se^ao 11.3.1,por meio desse banco de dados e possivel construir uma matriz Z, que 
possui apenas variaveis binarias criadas com base na codifica^ao das categorias das variaveis originais para cada 
estudante. Assim, por exemplo, para a observa^ao 1 (Gabriela), que apresenta perfil de investidor Conservador , 
aplica seus recursos em Poupanga e encontra-se no estado civil Casado, temos a codifica^ao binaria representada, 
respectivamente, por (1 0 0), (1 0 0),..., (0 1). A Tabela 11.25 apresenta a codifica^ao binaria para as observagoes 
apresentadas na Tabela 11.21. 


Tabela 11.25 Codifica^ao binaria das categorias das variaveis originais - Matriz binaria Z. 


Observa^ao 

Perfil do Investidor (Z x ) 

Tipo de Aplica^ao 
Financeira (Z 2 ) 

Estado Civil 

<Z 3 ) 

Conservador 

Moderado 

Agressivo 

Poupanfa 

CDB 

Afoes 

Solteiro 

Casado 

Gabriela 

1 

0 

0 

1 

0 

0 

0 

1 

Luiz Felipe 

1 

o 

0 

1 

0 

0 

0 

1 


Renata 

1 

0 

0 

0 

1 

0 

0 

1 

Guilherme 

1 

0 

0 

0 

0 

1 

1 

0 


Kamal 

0 

I 1 

0 

1 

0 

0 

1 

0 

Rodolfo 

0 

1 

0 

0 

1 

0 

1 

0 


Raquel 

0 

1 

0 

0 

1 

0 


1 

Anna Luiza 

0 

1 

0 

0 

0 

1 

1 

0 


Nuno 

0 

0 

1 

1 

0 


1 

0 

Braulio 

0 

0 

1 

0 

1 

0 

1 

0 


Estela 

0 

0 

1 

0 

0 

1 

1 

0 
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A matriz binaria Z completa tambem pode ser acessada no arquivo Perfiljnvestidor X Aplica^ao X 
Estado_Civil.xls. Inicialmente, com base na expressao (11.39), podemos calcular a inercia principal total de Z. 
Assim, temos que: 


8 — 3 

I T = -= 1,666 

T 3 

Supondo que a matriz binaria Z seja uma tabela de contingencia de uma analise de correspondence simples, 
podem ser definidos os valores das inercias principals parciais de cada uma dasJ-Q=8-3 = 5 dimensoes. 
Assim, fazendo uso dos conceitos estudados na se^ao 11.2, chegamos aos seguintes valores das inercias principals 
parciais, que sao autovalores obtidos a partir da matriz binaria Z: 

A 2 ! =0,602 
A 2 =0,436 
■ A 2 =0,276 
A 2 =0,180 
A 2 =0,172 

de onde podemos comprovar que I T — A 2 + A 2 + A 2 + X 2 4 + A 5 = 1,666. 

Conforme discute Greenacre (2008), somente e interessante que sejam plotadas no mapa percep¬ 
tual as coordenadas das dimensoes que apresentarem valores de inercia principal parcial superio¬ 
rs a media da inercia principal total por dimensao que, em nosso exemplo, e igual a (1,666/5) = 0,333. 
Portanto, para a analise de correspondence multipla de nosso exemplo, sera construido um mapa perceptual 
com duas dimensoes, visto que X 2 < 0,333. A Tabela 11.26 apresenta as coordenadas-padrao das categorias de 
cada uma das variaveis para as duas dimensoes, calculadas da mesma forma que no exemplo apresentado na se$ao 
11.2.5, com base nos conceitos e expressoes estudados ao longo da se^ao 11.2. 


Tabela 11.26 Coordenadas-padrao das categorias das variaveis - Metodo da matriz binaria Z. 


Variavel 

Categoria 

Coordenadas da l a 
Dimensao (Abcissas) 

Coordenadas da 2 a 
Dimensao (Ordenadas) 

Perfil do 
Investidor 

Conservador 

x n = 1,456 

Yii = 2,247 

Moderado 

x i 2 - 0,962 

y« = -1.476 

Agressivo 

x 13 = -0,841 

y 13 = -0,022 

Tipo de Aplicagao 
Financeira 

Poupan^a 

x 21 = 1,780 

y 2 i = 2,016 

CDB 

x 22 = 0,538 

y 22 = -1,416 

A^oes 

x 23 = -1,071 

y 23 = 0,587 

Estado Civil 

Solteiro 

x 3 i = -0,820 

y 3 i = 0,150 

Casado 

x 32 = 1,086 

y 32 = -0,199 


Conforme discutimos na segao 11.3.1, a analise de correspondence multipla tambem pode ser realizada 
por meio da elaboragao de uma matriz quadrada e simetrica que agrupa as frequences absolutas observadas 
provenientes dos cruzamentos de todos os pares de variaveis, conhecida por matriz de Burt. A matriz de Burt 
do nosso exemplo, que pode ser construida tanto por meio da expressao (11.40), fazendo-se uso da matriz bi¬ 
naria Z, quanto por meio das tabelas de contingencia apresentadas nasTabelas 11.22,11.23 e 11.24, encontra- 
-se na Tabela 11.27. 

Note, na Tabela 11.27, que as submatrizes Z \ • Z u Z 2 • Z 2 e Z 3 • Z 3 , em destaque, sao matrizes diagonals 
cujos elementos correspondem, respectivamente, a soma das colunas das matrizes Z l5 Z 2 e Z 3 (perfil do inves- 
tidor, tipo de aplica^ao financeira e estado civil, respectivamente). Ja as matrizes Z\ • Z 2 , Z\ • Z 3 e Z 2 • Z 3 , 
e correspondem, respectivamente, as tabelas de contingencia apresentadas nasTabelas 11.22, 11.23 e 11.24. 
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Tabela 11.27 Matriz de Burt (B). 



Perfil do Investidor 

Tipo de Aplica^ao 
Financeira 

Estado Civil 

Conservador 

Moderado 

Agressivo 

Poupanfa 

CDB 

Afoes 

Solteiro 

Casado 

Perfil do 

Investidor 

Conservador 

17 

0 

0 

8 

4 

5 

5 

12 

Moderado 

0 

25 

0 

5 

16 

4 

11 

14 

Agressivo 

0 

0 

58 

2 

20 

36 

41 

17 

Tipo de 
Aplicafao 
Financeira 

Poupan^a 

8 

5 

2 

15 

0 

0 

5 

10 

CDB 

4 

16 

20 

0 

40 

0 

16 

24 

A^oes 

5 

4 

36 

0 

0 

45 

36 

9 

Estado 

Civil 

Solteiro 

5 

11 

41 

5 

16 

36 

57 

0 

Casado 

12 

14 

17 

10 

24 

9 

0 

43 

Massas 

0,057 

0,083 

0,193 

0,050 

0,133 

0,150 

0,190 

0,143 


Considerando a matriz de Burt (B) uma tabela de contingencia, podemos tambem elaborar uma analise de 
correspondence simples, que gera as coordenadas principals das categorias das variaveis, conforme apresentado 
na Tabela 11.28. 


Tabela 11.28 Coordenadas principals das categorias das variaveis - Metodo da matriz de Burt B. 


Variavel 

Categoria 

Coordenadas da 1^ 
Dimensao (Abcissas) 

Coordenadas da 2 a 
Dimensao (Ordenadas) 

Perfil do 
Investidor 

Conservador 

x u = 1,130 

y u = 1.484 

Moderado 

x 12 = 0,747 

712 = -0,975 

Agressivo 

x 13 = -0,653 

y 13 = -0,015 

Tipo de 
Aplica^ao 
Financeira 

Poupan^a 

X 2 1 = 1,381 

y 2 i = 1,331 

CDB 

x 22 = 0,417 

y 22 = -0,935 

A^oes 

X 

to 

II 

i 

00 

l— ^ 

y 23 = 0,388 

Estado Civil 

Solteiro 

x 31 = -0,636 

y 31 = 0,099 

Casado 

x 32 — 0,843 

y 32 = -0,131 


Com base nas coordenadas apresentadas nasTabelas 11.26 (metodo da matriz binaria Z) e 11.28 (metodo da 
matriz de Burt B), podemos facilmente verificar a rela^ao existente entre elas, apresentada na expressao (11.42). 
Assim, para a primeira dimensao da categoria Consermdor temos, por exemplo, que: 

(coord, principal^ = 4^4 • (coord. padrao 1 ) z = V^^’(l>456) = 1,130 

e, para a segunda dimensao da mesma categoria, temos que: 

(coord. principal 2 ) B = 2 • (coord. padrao 2 ) z = 4® A 36 * (2,247) = 1,484 

Isso mostra que as coordenadas obtidas pelo metodo da matriz de Burt realmente apresentam escala reduzida, 
em especial para a segunda dimensao, pelo fato de a inercia principal parcial ser ainda menor. 

Enquanto na se^ao 11.4.2 serao apresentados os resultados dos procedimentos para elabora^ao da analise de 
correspondence multipla no SPSS, em que sao geradas as coordenadas principals das categorias, na se^ao 11.5.2 
serao apresentados os resultados dos procedimentos para elabora^ao da tecnica no Stata, por meio dos quais sera 
possivel analisar as coordenadas-padrao obtidas pelo metodo da matriz binaria Z. 

Como o metodo da matriz de Burt gera coordenadas com escala reduzida, optamos por apresentar, na Figura 
11.12, o mapa perceptual construido com base nas coordenadas-padrao obtidas pelo metodo da matriz binaria e 
apresentadas na Tabela 11.26. 
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Figura 11.12 Mapa perceptual da analise de correspondencia multipla - Coordenadas-padrao. 


Com base no mapa perceptual da Figura 11.12, podemos verificar que a categoria Soiteiro apresenta forte as- 
socia^ao com as categorias Agressivo e A foes. Por outro lado, a categoria Casado encontra-se entre as categorias 
Conservaior e Moderado e entre Poupanfa e CDB, porem com maior proximidade de Moderado e CDB . Esse fato 
e provavelmente caracterizado pela maior aversao ao risco que passam a ter aqueles que se tornam responsaveis 
por uma familia, como os casados. 

Interessante tambem seria se incluissemos na analise uma variavel que permitisse identificar se cada estudan- 
te possui ou nao filhos, independentemente da quantidade. Sera que o fato de ter filhos aumenta ainda mais a 
aversao ao risco? Ha associa^ao entre o fato de ter um ou mais filhos, o perfil do investidor e o tipo de aplica^ao 
financeira? Deixaremos essas perguntas para um exercicio ao final do capitulo. 

11.4. ANALISE DE CORRESPONDENCIA SIMPLES E MULTIPLA NO SOFTWARE SPSS 

Nesta se^ao, apresentaremos o passo a passo para a elabora^ao de nossos exemplos no IBM SPSS Statistics 
Software®. Seguindo a logica proposta no livro, o principal objetivo e propiciar ao pesquisador uma oportunida- 
de de elaborar analises de correspondences simples e multiplas neste software, dada sua facilidade de manuseio e a 
didatica das operates. A cada apresenta^ao de um output, faremos men^ao ao respectivo resultado obtido quando 
da solu^ao algebrica das tecnicas nas se^oes anteriores, a fim de que o pesquisador possa compara-los e formar seu 
conhecimento e erudi^ao sobre o tema. A reprodu^o das imagens nessa se^ao tern autoriza^ao da International 
Business Machines Corporation®. 


11 *4*1. Elaborate) da analise de correspondencia simples no software SPSS 

Voltando ao exemplo apresentado na se^ao 11.2.5, lembremos que nosso professor tern o interesse em estudar 
se o perfil de investidor de seus alunos relaciona-se com o tipo de aplica^ao financeira realizada, ou seja, se exis- 
te associa^ao estatisticamente significante, a determinado nivel de significance, entre os perfis dos investidores e 
a forma como sao alocados seus recursos financeiros. Os dados encontram-se no arquivo PerfiI_Investidor X 
Aplica^ao.sav e sao exatamente iguais aos apresentados parcialmente naTabela 11.7 da se^ao 11.2.5. Note que 
os rotulos das categorias das variaveis perfil e aplicagao ja estao definidos no banco de dados. 

A fim de que sejam geradas as tabelas de frequences absolutas observadas ( cross-tabulations ) e esperadas e, 
consequentemente, a tabela de residuos e o valor da estatistica ^ 2 , vamos inicialmente clicar em Analyze —> 
Descriptive Statistics —> Crosstabs..., para elaborarmos o primeiro diagnostic© sobre a interdependence en¬ 
tre as duas variaveis categoricas. A caixa de dialogo da Figura 11.13 sera aberta. 
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\$± estudante ~| 

Sb perfil do Investidor fperfil] 
4k tipo de aplicagao finance... 


O Display clustered bar charts 


Row(s): 



Cofumn(s): 


rLayer 1 of 1 



Bf Display iayervariables in table Sayers 



D Suppress tables 


f ok] ? j 


Figura 11.13 Caixa de dialogo para elaborate* das tabelas de frequences absolutas 
observadas e esperadas, dos residuos e do tester 2 . 


Conforme mostra a Figura 11.14, devemos inserir a variavel perfil em Row(s), e a variavel aplicagao em 
Column(s). No botao Statistics..., devemos selecionar a op^ao Chi-square, conforme mostra a Figura 11.15. 


^estudante 


Row(s): 


4k perfil do investidor Iperfilj 


Column{s): 


4k '- : P° de aplicacao financ... 


Layer 1 of 1- 

| Freacus I 


Next. 


I Display layer variables in table layers 


□ Display clustered bar charts 
O Suppress tables 


Figura 11.14 Sele^ao das variaveis em Row(s) e em Column(s). 


1 t. x 

| BUS Chi-square 


□ Correlations | 







□ Contingency coeldent 


O Gamma 



0 Phi and Cramer's V 


0 Somers’ d 



□ Lambda 


0 Kendall's tau-b 



□ Uncertainty coefficient 


0 Kendall's tau-c 



rNominal by Interval 


□ Kappa 1 


0 Eta 

O RisK | 



0 McNemar 1 

1 □ Cochran's and Mantel-Haensze! statistics 1 

1 Test common odds ratio 

equate: if | 



Figura 11.15 Sele^ao da estatfstica % 2 . 
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Ao clicarmos em Continue, voltaremos a caixa de dialogo anterior. No botao Cells..., marcaremos as opgoes 

Observed e Expected, em Counts, e Unstandardized, Standardized e Adjusted standardized, em Residuals, 

conforme mostra a Figura 11.16. 


Crosstabs: Cel! Display 


-Counts 

z-test 

HI Observed 

0 Compare column proportions 

M Expected 

H Adjustp-values (Bonferroni method) 

B Hide small counts 


Less than |§ | 



-Percentages 
0 Row 
0 Column 
0 Jotal 

“NonintegerWeights--— — - ■■■ ■ ■■■ - - 11 . 

© Round cell counts © Round case weights 
© Truncate cell counts © Truncate case weights 
© No adjustments 

[continue]} Cancel ]jijBiiiR._J 


Figura 11.16 Sele^ao das op^oes para elaborated das tabelas de frequencias e dos residuos. 


-Residuals- 

M Unstandardized 
M Standardized 
S3 Adjusted standardized 


Na sequencia, podemos clicar em Continue e em OK. Os primeiros outputs encontram-se nas Figuras 11.17 
e 11.18. 

Conforme estudamos nas se^oes anteriores, a fim de verificarmos inicialmente a existencia de associa^ao es- 
tatisticamente significante entre as variaveis perfil e aplica^ao, devemos fazer uso do teste % 2 . A Figura 11.17 apre- 
senta a estatistica correspondente, cujo calculo e feito com base na somatoria, para todas as celulas, da razao entre 
o residuo ao quadrado e a respectiva frequencia esperada, de acordo com a expressao (11.6). 


Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

31,764 a 

4 

,000 

Likelihood Ratio 

30,777 

4 

,000 

Linear-by-Linear 

Association 

20,352 

1 

,000 

N ofValid Cases 

100 




a. 2 cells (22,2%) have expected count less than 5. The 
minimum expected count is 2,55. 


Figura 11.17 Resultado do teste para verifica^ao de associa^ao entre perfil e aplicaqao. 


Logo, temos que: 




(residuos-) 2 


(frequencias esperadas-) 


= 31,764 


que e exatamente igual ao valor calculado algebricamente na se^ao 11.2.5. Assim, de acordo com a Figura 11.17, 
o valor-P (Asymp. Sig.) da estatistica % 2 ca i e consideravelmente menor que 0,05 (valor-P X 2 ca i = 0,000). Logo, para 
(J-l) x (J — 1) = (3 — 1) x (3 — 1) — 4 graus de liberdade, podemos rejeitar a hipotese nula de que as duas vari¬ 
aveis categoricas se associam de forma aleatoria, ou seja, existe associa^ao estatisticamente significante, ao nivel de 
significance de 5%, entre o perfil do investidor e o tipo de aplica^ao financeira. 

Conforme discutimos na se^ao 11.2.5, tao importante quanto avaliar a existencia de associa^ao estatisticamente 
significante entre essas duas variaveis e estudar a rela^ao de dependence entre cada par de categorias.A Figura 11.18 
permite que essa analise seja elaborada. 
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perfil do investidor * tipo de aplicagao financeira Crosstabulation 



tipo de aplicapao financeira 



Poupanpa 

CDB 

Apoes 

Total 

perfil do investidor Conservador Count 

8 

4 

5 

17 

Expected Count 

2,6 

6,8 

7,7 

17,0 

Residual 

5,5 

-2,8 

-2,7 


Std. Residual 

3,4 

-1,1 

-1,0 


Adjusted Residual 

4,1 

-1,5 

-1,4 


Moderado Count 

5 

16 

4 

25 

Expected Count 

3,8 

10,0 

11,3 

25,0 

Residual 

1,3 

6,0 

-7,3 


Std. Residual 

,6 

1,9 

-2,2 


Adjusted Residual 

,8 

2,8 

-3,4 


Agressivo Count 

2 

20 

36 

58 

Expected Count 

8,7 

23,2 

26,1 

58,0 

Residual 

-6,7 

-3,2 

9,9 


Std. Residual 

-2,3 

-,7 

1,9 


Adjusted Residual 

-3,8 

-1,3 

4,0 


Total Count 

15 

40 

45 

100 

Expected Count 

15,0 

40,0 

45,0 

100,0 


Figura 111.18 Tabela de frequences e de residuos para perfil e oplicogao. 


A Figura 11.18 mostra, para cada uma das celulas, as frequencias absolutas observadas (Count), as frequencias 
absolutas esperadas (. Expected Count), os residuos (Residual), os residuos padronizados (Std. Residual!) e os residu¬ 
os padronizados ajustados (Adjusted Residual), bem como os valores totais em linha e em coluna de Count e de 
Expected Count que, obviamente, sao iguais. Note que, enquanto os valores de Count correspondem aos apresen- 
tados na Tabela 11.8, os valores de Expected Count e de Residual sao os calculados e apresentados nasTabelas 11.9 
e 11.10, respectivamente. Alem disso, os valores de Std. Residual e de Adjusted Residual correspondem, respectiva- 
mente, aos apresentados nasTabelas 11.12 e 11.13. 

Podemos verificar que, enquanto ha uma maior propor^ao de estudantes que se consideram agressivos em ter- 
mos de perfil de investidor, ha tambem uma quantidade maior de estudantes que aplicam seus recursos financeiros 
em a^oes. No perfil Conservador, os residuos sao maiores para a categoria Poupanga, o que indica que as diferen^as 
entre as frequencias absolutas observadas e esperadas nessa celula sao maiores que para as demais celulas do perfil 
Conservador e, como o valor do residuo padronizado ajustado nessa celula e igual a 4,1 (positivo e maior que 1,96), 
podemos concluir que ha dependencia entre as categorias Conservador e Poupanga. O mesmo tambem pode ser dito 
em rela^ao as categorias Moderado e CDB (residuo padronizado ajustado igual a 2,8) e entre as categorias Agressivo 
e Afdes (residuo padronizado ajustado igual a 4,0). 

Em muitos casos, o pesquisador pode restringir a analise apenas com base nos resultados do teste X 2 e nos re¬ 
siduos padronizados ajustados, ja que esses ja oferecem muitos subsidios para a elabora^ao de uma interessante 
analise dos dados com foco para a tomada de decisao. Entretanto, para que seja construido o mapa perceptual no 
SPSS, e necessario elaborar mais alguns passos. Para tanto, vamos clicar em Analyze —> Dimension Reduction 
—> Correspondence Analysis.... Uma caixa de dialogo como a apresentada na Figura 11.19 sera aberta. 




Correspondence Analysis 



-- Row. 

IS perfil do invesfidor{... | 

1 i 

S tipo de apiicacao fin. 

! rr.fi ■= - - - w 


-- - Column: 

^ ! j 


[ Rarjcie... \ 



[ OK- ]ff 

^ste | [ Reset ] [ Cancel ] [ Help' ] 


[ ftecM., 
[ Plots;.. 


Figura 11.19 Caixa de dialogo para elaboragao da analise de correspondencia simples no SPSS. 
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Devemos inicialmente selecionar a variavel perfil e inseri-la em Row, conforme mostra a Figura 11.20. 



Figura 11.20 Inclusaoda variavel perfil em Row. 


Ao clicarmos em Define Range..., abrira uma caixa de dialogo. Como a variavel perfil apresenta tres catego- 
rias ( Conservador , Moderado e Agressivo), e nossa inten^ao e inclui-las, sem exce^ao, na analise de correspondence, 
devemos digitar 1 em Minimum value, 3 em Maximum value e clicar em Update, conforme mostra a Figura 
11.21. E importante lembrar que os valores 1, 2 e 3 foram inseridos inicialmente no banco de dados, e, a eles, 
foram atribuidas, respectivamente, as categorias Conservador, Moderado e Agressivo como rotulos (labels). O pesqui- 
sador podera, como bem entender, alterar os valores iniciais de preenchimento no banco de dados; porem, nesse 
momento, precisara digitar os valores correspondentes as categorias a serem incluidas na analise. Para retornarmos 
a caixa de dialogo principal, devemos clicar em Continue. 



Figura 11.21 Selegao das categorias da variavel perfil. 

Na sequencia, vamos elaborar o mesmo procedimento para a variavel aplicagao. Conforme mostra a Figura 
11.22, devemos inseri-la em Column. 

Ip Correspondence Analysis n 



Figura 11.22 Inclusao da variavel aplicagao em Column. 
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Analogamente, em Define Range..., devemos digitar 1 em Minimum value, 3 em Maximum value e clicar 
em Update, como mostra a Figura 11.23, visto que a variavel aplicagao tambem apresenta tres categorias ( Poupanga , 
CDB e A goes ). Na sequencia, vamos clicar em Continue para voltarmos a caixa de dialogo inicial. 

Na caixa de dialogo inicial, vamos agora clicar em Model.... Abrira uma caixa em que deverao ser sele- 
cionadas as op^oes Chi square (em Distance Measure), Row and column means are removed (em 
Standardization Method) e Symmetrical (em Normalization Method), de acordo com a Figura 11.24. 
Por meio dessa mesma figura, e possivel verificar que ha o valor 2 em Dimensions in solution, corresponden- 
te ao numero de dimensoes do mapa perceptual. Nesse caso, o numero de dimensoes e, de fato, 2, uma vez que, 
conforme estudamos, o numero de dimensoes e igual a mm(7— 1,J— 1). Caso tivessemos mais categorias em cada 
uma das variaveis, ainda assim poderiamos elaborar um mapa perceptual bidimensional, plotando apenas as duas 
dimensoes com as maiores inercias principals parciais. 


p Correspondence Analysis: Define Column Ran.. 


[-Category range for column variable: aplicagao 
Minimum value: (i 


Mas mum value: 


(update] 


-Categ ory Con strai nts ~ 


© None 

© Categories must be equal 
© Category is supplemental 


[contlm:e~][ Cancel ][ Help ] 


Figura 11 .23 Selegao das categorias da variavel aplicagao. 


Ip Correspondence Analysis: Model 


Dimensions in solution: [2 [ 

"Distance Measure-————•— -- 

© Chi square 
© Euclidean 

-Standardization M etb od--- : - 

© Row and column means are removed 

© Row means are removed 
© Column means art removed 
© Row totals are equalized and means are removed 
© Column totals are equalized and means are removed 


"Normalization Method—■— ■ ■■■■■ ■■ -- ■■■ 

© Symmetrical @ Row principal © Custom jo 
© Principal © Column principal 


Figura 11.24 Defini^ao das caracteristicas da analise de correspondencia. 


Conforme discutimos na se^ao 11.2.4, e possivel que o pesquisador deseje privilegiar exclusivamente a vi- 
sualiza^ao das massas em linha ou em coluna de determinada tabela de contingencia para a constru^ao do mapa 
perceptual. Nesse sentido, podera abrir mao da normaliza^ao simetrica (Symmetrical) e optar pelas normali- 
za^oes principal linha ou principal coluna, clicando, respetivamente, nas opgoes Row principal ou Column 
principal em Normalization Method (Figura 11.24). Nesses casos, as coordenadas das categorias serao calcu- 
ladas com base nas expressoes apresentadas no Quadro 11.1. Nao apresentaremos, todavia, esses mapas especificos. 
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Para dar sequencia a analise, devemos clicar em Continue. Na caixa de dialogo inicial, vamos clicar em 
Statistics... e, na caixa que sera aberta, vamos marcar as op^oes Correspondence table, Row profiles e 
Column profiles, a fim de que sejam geradas, nos outputs , a tabela de contingencia (tabela de frequences abso- 
lutas observadas) e as tabelas de massas row profiles e column profiles. Mem disso, vamos tambem selecionar as op^oes 
Overview of row points e Overview of column points, por meio das quais serao apresentados os quadros 
com as coordenadas das categorias das variaveis. A Figura 11.25 apresenta essas op^oes selecionadas. Na sequen¬ 
cia, devemos clicar em Continue. 


ft Correspondence Analysis: Statistics 

| M Correspondence table 
13 Overview of row points 
[3 Overview of column points 
0 Permutations of the correspondence labie 

Maximum dimension for permutations: ji ~ ~] 
H Row profiles 
M Column profiles 

-Confidence Statistics for- 

0 Row points 0 Column points 

[continue ] ( Cancel J 


Figura 11.25 Defini^ao dos outputs a serem gerados. 

Por fim, em Plots... (caixa de dialogo inicial), devemos apenas clicar em Biplot, conforme mostra a Figura 
11.26. Caso o pesquisador deseje elaborar graficos com as categorias de apenas uma das variaveis, podera tambem 
selecionar as op^oes Row points ou Column points. Na sequencia, podemos clicar em Continue e em OK. 

Os primeiros outputs gerados encontram-se nas Figuras 11.27,11.28 e 11.29 e referem-se, respectivamente, a 
tabela de contingencia e as tabelas de massas column profile e row profile. Os valores nessas figuras correspondem, 
respectivamente, aos apresentados nas Tabelas 11.8, 11.14 ell.15. 


f§ Correspondence Analysis: Plots 1 

pScatterplots-—- 

[H Biplot 

□ Row points 

□ Column points 

ID label width for scatterplots: 


20 


•Line plots- 

D Transformed row categories 
D Transformed column categories 

ID label width for line plots: 


20 


-Plot Dimensions- 

© Display all dimensions in the solution 
© Restrict the number of dimensions 


Lowest dimension: 
Highest dimension: 


[continue] [ Cancel ] [ Help 


Figura 11.26 Defini^ao do mapa perceptual. 
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Correspondence Table 


perfil do investidor 

tipo de aplicagao financeira 

Poupanga 

CDB 

Agoes 

Active Margin 

Conservador 

8 

4 

5 

17 

Moderado 

5 

16 

4 

25 

Agressivo 

2 

20 

36 

58 

Active Margin 

15 

40 

45 

100 


Figura 11.27 Tabela de contingencia com frequencias absolutas observadas para perfil e aplicagao. 


Column Profiles 


perfil do investidor 

tipo de aplicagao financeira j 

Poupanga 

CDB 

Agoes 

Mass 

Conservador 

,533 

,100 

,111 

,170 

Moderado 

,333 

,400 

,089 

,250 

Agressivo 

,133 

,500 

,800 

,580 

Active Margin 

1,000 

1,000 

1,000 



Figura 11.28 Massas - Column profiles. 


Row Profiles 


perfil do investidor 

tipo de aplicagao financeira 

Poupanga 

CDB 

Agoes 

Active Margin 

Conservador 

,471 

,235 

,294 

1,000 

Moderado 

,200 

,640 

,160 

1,000 

Agressivo 

,034 

,345 

,621 

1,000 

Mass 

,150 

,400 

,450 



Figura 11.29 Massas - Row profiles. 


Logo, conforme tambem discutimos, a tabela de massas column profiles apresenta o calculo das razoes entre as 
frequencias absolutas observadas de cada celula da tabela de contingencia e a soma total de cada coluna (cha- 
mada, pelo SPSS, de Active Margin) . Logo, a massa da categoria Conservador da variavel perfil e dada pela relagao 
17/100 = 0,170. 

Analogamente, a tabela de massas row profiles apresenta o calculo das razoes entre as frequencias absolutas ob¬ 
servadas de cada celula da tabela de contingencia e a soma total de cada linha (tambem chamada, pelo SPSS, de 
Active Margin). Logo, a massa da categoria CDB da variavel aplicagao e dada pela relagao 40/100 = 0,400. 

Na sequencia, sao apresentados os outputs referentes a decomposigao inercial (Figura 11.30), com destaque 
para os valores singulares e as inercias principais parciais de cada dimensao. Alem disso, tambem sao apresentados 
os valores da inercia principal total e da estatistica % 2 . 


Summary 







Proportion of Inertia 

Confidence Singular Value | 









Correlation 

Dimension 

Singular 

Value 

Inertia 

Chi Square 

Sig. 

Accounted for 

Cumulative 

Standard 

Deviation 

2 

1 

,483 

,233 



,734 

,734 

,088 

,179 

2 

,291 

,084 



,266 

1,000 

,100 


Total 


,318 

31,764 

,000 a 

1,000 

1,000 




a. 4 degrees of freedom 


Figura 11.30 Decomposigao inercial para as duas dimensoes e estatistica j^ 2 . 

Assim como mostra o output da Figura 11.17, podemos inicialmente verificar, com base nos outputs da Figura 
11.30, que o perfil do investidor e o tipo de aplicagao financeira nao se combinam aleatoriamente, visto que o 
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valor-P da estatistica % 2 ca[ e menor que 0,05 ( Sig . % 2 ca i = 0,000). Alem disso, temos, para cada dimensao, os seguintes 
valores das inercias principals parciais: 

| A 2 ! =0,233 
[A 2 =0,084 

e, portanto, a inercia principal total e I T = A 2 + A 2 = 0,318. Conforme estudamos na seciio 11.2.5, podemos tam- 
bem verificar, por meio da expressao (11.7), que: 


A 2 = 31,764 
N 100 


=0,318 


Os valores singulares de cada dimensao sao iguais a: 


1 ^= 0,483 

[A 2 =0,291 


Ainda com base nos outputs apresentados na Figura 11.30, podemos afirmar que as dimensoes 1 e 2 explicam, 
respectivamente, 73,4% (0,233 / 0,318) e 26,6% (0,084 / 0,318) da inercia principal total. Esses valores ja haviam 
sido calculados e apresentados naTabela 11.16. 

As Figuras 11.31 e 11.32 apresentam as coordenadas (abcissas e ordenadas) das categorias das duas variaveis. 
Enquanto as abcissas sao denominadas Score in Dimension 1, as ordenadas sao denominadas Score in Dimension 2. 


Overview Row Points 3 


perfil do investidor 

Mass 

Score in Dimension 

Inertia 

Contribution f 

1 

2 

Of Point to Inertia of Dimension 

Of Dimension to Inertia of Point | 

1 

2 

1 

2 

Total 

Conservador 

,170 

-1,132 

,805 

,137 

,451 

,379 

,767 

,233 

1,000 

Moderado 

,250 

-,553 

-,829 

,087 

,158 

,592 

,425 

,575 

1,000 

Agressivo 

,580 

,570 

,122 

,094 

,391 

,029 

,973 

,027 

1,000 

Active Total 

1,000 



,318 

1,000 

1,000 





a. Symmetrical normalization 


Figura 11.31 Coordenadas (scores) das categorias da variavel perfil. 


Overview Column Points 3 


tipo de aplicapao 
financeira 

Mass 

Score in Dimension 

Inertia 

Contribution | 

1 

2 

Of Point to Inertia of Dimension 

Of Dimension to Inertia of Point | 

1 

2 

1 

2 

Total 

Poupanpa 

,150 

-1,475 

,582 

,172 

,675 

,175 

,914 

,086 

1,000 

CDB 

,400 

-,102 

-,655 

,052 

,009 

,591 

,039 

,961 

1,000 

Apoes 

,450 

,582 

,389 

,093 

,316 

,234 

,789 

,211 

1,000 

Active Total 

1,000 



,318 

1,000 

1,000 





a. Symmetrical normalization 


Figura 11.32 Coordenadas ( scores ) das categorias da variavel aplicagao. 


Note, a partir dos outputs apresentados nas Figuras 11.31 e 11.32, que o SPSS apresenta as coordenadas das ab¬ 
cissas de cada categoria (Score in Dimension 1) com sinais invertidos em rela^ao aos calculados algebricamente no 
final da se^ao 11.2.5. Isso faz o mapa perceptual ser construido de forma verticalmente espelhada se comparado 
ao mapa apresentado na Figura 11.9,porem nao altera absolutamente a interpreta^ao dos resultados da analise de 
correspondence. Ressalta-se que isso acontece apenas para algumas versoes do SPSS. 
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Conforme discutimos, as coordenadas das categorias da variavel em linha podem ser calculadas a partir das 
coordenadas das categorias da variavel em coluna para determinada dimensao e vice-versa. Para tanto, devemos 
multiplicar a matriz de massas pelo vetor de coordenadas de uma variavel e dividir pelo correspondente valor 
singular da dimensao em analise, para que sejam obtidas as coordenadas das categorias da outra variavel, de acor- 
do com as expressoes (11.33) e (11.34). Assim, a abcissa da categoria Agoes pode ser calculada da seguinte forma: 


^Afdes ' 


[0,111 x (-1,132)] + [0,089 x (-0,553)] + [0,800 x 0,570] 
0,483 


: 0,582 


e, analogamente, a ordenada da categoria Moderado pode ser calculada por meio da seguinte expressao: 


_ [0,200 x 0,582] + [0,640 x (-0,655)] + [0,160 x 0,389] _ 

y Moderado q 5 

Alem disso, tambem mostramos, com base nas expressoes (11.35) e (11.36), que os valores singulares de cada 
dimensao podem ser obtidos pela soma, em linha ou em coluna, da multiplica^ao da coordenada ao quadrado de 
cada categoria pela respectiva massa. Assim, para a primeira dimensao, e fazendo uso das coordenadas da variavel 
perfil, podemos obter o valor singular da seguinte maneira: 

X x =[(-l,132) 2 x0,170] + [(—0,553) 2 x 0,250]+[(0,570) 2 X 0,580]=0,483 

e o mesmo resultado pode ser encontrado se forem utilizadas as coordenadas da variavel aplicagao e respectivas 
massas. 

Analogamente, para a segunda dimensao, e fazendo uso das coordenadas da variavel aplicagao , podemos obter 
o valor singular da seguinte maneira: 

A 2 = [(0,582) 2 X 0,150]+[(-0,655) 2 x 0,400]+[(0,389) 2 X 0,450]=0,291 


sendo o mesmo resultado obtido se utilizadas as coordenadas da variavel perfil e respectivas massas. 

As Figuras 11.31 e 11.32 apresentam tambem um importante output , chamado de Contribution of Point to 
Inertia of Dimension , que oferece uma possibilidade de que sejam analisadas as categorias mais representativas 
de cada variavel para a composi^ao inercial de cada dimensao. Segundo Olariaga e Hernandez (2000), se deter¬ 
minada categoria de uma variavel apresentar, por exemplo, um valor de abcissa bastante alto em modulo, ou seja, 
mais distante horizontalmente da Origem, e possuir massa elevada, mais representativa essa categoria sera para a 
composi^ao inercial da primeira dimensao. Analogamente, se outra categoria apresentar, por exemplo, um valor 
de ordenada bastante alto em modulo, ou seja, mais distante verticalmente da Origem, e tambem possuir massa 
elevada, mais representativa essa outra categoria sera para a composi^ao inercial da segunda dimensao. 

Por exemplo, a contribui^ao da categoria Conservador para a inercia da primeira dimensao pode ser calculada 
da seguinte forma: 

[(-1,132) 2 X0,170] _ 0151 

0,483 

que torna a categoria Conservador a mais representativa da variavel perfil para a composi^ao inercial da primeira 
dimensao (45,1%). Para essa mesma variavel, a categoria Moderado e a mais representativa para a composi^ao iner¬ 
cial da segunda dimensao, com uma contribui^ao de 59,2% da inercia principal total. Ja para a variavel aplicagao, 
enquanto a categoria Poupanga e a mais representativa para a composi^ao inercial da primeira dimensao (67,5%), 
a categoria CDB e a mais representativa para a composi^ao inercial da segunda dimensao (59,1%). 

Com base nas abcissas e ordenadas apresentadas nas Figuras 11.31 e 11.32, pode ser construido o mapa per¬ 
ceptual apresentado na Figura 11.33. 

Conforme discutido, como as abcissas das categorias calculadas pelo SPSS apresentam sinais opostos aos das 
abcissas calculadas algebricamente na se^ao 11.2.5, o mapa perceptual da Figura 11.33 e horizontalmente espe- 
lhado em rela^ao ao mapa apresentado na Figura 11.9 (esse fato ocorre apenas para algumas versoes do SPSS). 
Entretanto, em nada altera a analise e nao impede que se comprove a existencia de associa^ao entre as variaveis 
pefil e aplicagao e, mais que isso, a associa^ao entre as categorias Conservador e Poupanga, entre Moderado e CDB, e 
entre Agressivo e Agoes. 
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Figura 11.33 Mapa perceptual para perfil do investidor e tipo de aplica^ao financeira. 


Como sao calculadas duas inercias principals parciais e, na sequencia, e construido um mapa perceptual com duas 
dimensoes (biplot), e importante enfatizar que 100% da inercia principal total estao representados no mapa bidimen- 
sional. Esse fato nao ocorre para os casos em que ha uma quantidade maior de categorias em ambas as variaveis e, 
na sequencia, o pesquisador constroi um mapa perceptual bidimensional. Nessa situa^ao, apenas as dimensoes com 
as duas maiores inercias principals parciais serao plotadas no mapa. 

11.4*2. Elabora^ao da analise de correspondence multipla no software SPSS 

Seguindo a logica apresentada na se$ao 11.3.2, vamos elaborar a analise de correspondencia multipla no SPSS. 
Os dados encontram-se no arquivo Perfil_Investidor x Aplica^ao X Estado_Civil.sav e sao exatamente 
iguais aos apresentados parcialmente naTabela 11.21. Note que os rotulos das categorias das variaveis perfil, apli- 
cagao e estado_civil ja estao definidos no banco de dados. 

Inicialmente, e recomendavel que sejam geradas as tabelas de frequencias absolutas observadas (cross-tabula¬ 
tions) e os valores da estatistica X 2 P ara ca da par de variaveis, a fim de que seja elaborado um primeiro diagnosti- 
co sobre a existencia de associa^ao entre elas e, consequentemente, sobre a eventual necessidade de que alguma 
precise ser eliminada da analise. Conforme procedimento adotado na se^ao 11.4.1, para essa analise preliminar, 
devemos clicar em Analyze —> Descriptive Statistics —> Crosstabs.... Como sabemos que existe associa^ao 
entre as variaveis perfil e aplicagao, vamos apresentar os resultados gerados para o par perfil — estado_civil e para o par 
aplicagdo — estado_cwil Esses outputs encontram-se nas Figuras 11.34 a 11.37. 


perfil do investidor * estado civil Crosstabulation 


Count 



Figura 11.34 Tabela de contingency com frequencias absolutas observadas para perfil e estodo_civil. 
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Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

11,438 a 

2 

,003 

Likelihood Ratio 

11,600 

2 

,003 

Linear-by-Linear 

Association 

11,073 

1 

,001 

N of Valid Cases 

100 




a. 0 cells (,0%) have expected count less than 5. The minimum 
expected count is 7,31. 

Figura 11 .35 Resultado do teste para verifica^ao de associa^ao entre perfil e estodo_civil. 


tipo de aplicagaofinanceira * estado civil Crosstabulation 

Count 




estado civil 




Solteiro 

Casado 

Total 

tipo de aplicapao 
financeira 

Poupanpa 

5 

10 

15 

CDB 

16 

24 

40 


Apoes 

36 

9 

45 

Total 


57 

43 

100 


Figura 11.36 Tabela de contingency com frequences absolutas observadas para aplicagao e estodo_civil . 


Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

17,857 a 

2 

,000 

Likelihood Ratio 

18,690 

2 

,000 

Linear-by-Linear 

Association 

15,302 

1 

,000 

N of Valid Cases 

100 




a. 0 cells (,0%) have expected count less than 5. The minimum 
expected count is 6,45. 


Figura 11.37 Resultado do teste para verifica^ao de associagao entre aplicagao e estado_civil. 


Com base nos outputs das Figuras 11.35 e 11.37, podemos afirmar que a variavel estado_civil apresenta asso- 
cia^ao estatisticamente significante, ao nivel de significance de 5%, com as variaveis perfil e aplicagao, o que da 
suporte a sua inclusao na analise de correspondencia. Conforme discutimos no inicio da se^ao 11.3, se a varia¬ 
vel estado_civil nao apresentasse associa^ao as demais, nao faria sentido sua inclusao na analise, que voltaria a ser, 
nesse caso, bivariada. 

Vamos,portanto,partir para a elabora^ao da analise de correspondencia multipla propriamente dita. Para tanto, 
devemos clicar em Analyze —> Dimension Reduction —> Optimal Scaling.... Uma caixa de dialogo co- 
mo a apresentada na Figura 11.38 sera aberta e devemos manter as op^oes selecionadas inicialmente, ou seja, All 

variables are multiple nominal em Optimal Scaling Level e One set em Number of Sets ofVariables. 
Note que a analise escolhida e a Multiple Corrrespondence Analysis. 
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Hr Optimal Scaling 

[-Optimal Scaling Lews}- 

® All variables are multiple nominal 
© Some variable{s) are not multiple nominal 

rNumber of Sets of Variables- 

© One set 
© Multiple sets 

r Selected An alysis -—— - 

Multiple Correspondence Analysis 

Categorical Principal Components 
Nonlinear Canonical Correlation 


[ Define ] [cancgT] |Tfejp'| 


Figura 11.38 Caixa de dialogo para sele^ao da analise de correspondence multipla no SPSS. 
Ao clicarmos em Define, sera aberta uma caixa de dialogo como a apresentada na Figura 11.39. 


Multiple Correspondence Analysis 


ck estudanfe 


£$ perfil do investidor 

tipo de aplicagao fin. 

<£> estado civil festado... 


Labeling Variables: 


Dimensions in solution: 


_ O 

( O's ] | £ set* , ("Reset") (cancel | [ Help ] 



Figura 11 .39 Caixa de dialogo para elaboragao da analise de correspondence multipla no SPSS. 


Primeiramente, devemos selecionar as tres variaveis e inseri-las em Analysis Variables, conforme mostra a Figura 11.40. 




estudante 


Multiple Correspondence Analysis 


Analysis Variables: 



[oisaefe.Pj 
( pissing.,. ) 
[ Qpftpm... } 


( Output.. 1 



nPiots 


[ Obreq... '] 

[variaSI® 7) 


[ OK ] ( paste ] [ geseT l (Cancel] [ Help ) 


Figura 11.40 Selegao das variaveis a serem incluidas na analise de correspondence multipla. 
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Na sequencia, ao clicarmos em Output..., sera aberta uma caixa de dialogo como a da Figura 11.41. Nessa 
caixa, a fim de que sejam apresentadas as coordenadas de cada uma das categorias, devemos selecionar as tres 
variaveis e inseri-las em Category Quantifications and Contributions. Em seguida, podemos clicar em 
Continue, a fim de retornarmos a caixa de dialogo principal. 



No botao Save..., devemos apenas selecionar a op^ao Save object scores to the active dataset em Object 
Scores, conforme mostra a Figura 11.42. Esse procedimento gerara as coordenadas para cada uma das observapoes 
da amostra no proprio banco de dados, conforme discutiremos adiante. Na sequencia, podemos clicar em Continue. 

Na caixa de dialogo principal, podemos agora clicar em Object..., Na caixa que sera aberta, devemos sele¬ 
cionar as op^oes Object points e Objects and centroids (biplot) em Plots. Alem disso, tambem devemos 
selecionar a op$ao Variable em Label Objects e incluir todas as variaveis em Selected, conforme mostra a 
Figura 11.43. Na sequencia, podemos clicar em Continue. 
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ff MCA: Object Plots 

Plots—.....-. 

Si Object points 

HI Objects and centroids (biplot) 


rBiptot Variables™— --——.-—— -—. 

Available: Selected: 


Include: 

perfi! 



® Ail variables 

aplica^ao 



© Selected variables 

estado_csvi! 

0 



t 4 " 


Available: 


Selected: 

Label by: 

@ Case number 
® Variable 



perfil 

apiicafao 

estadp_clvil 






(Continue | [ Cancel ) | Hetp j) 


Figura 11 .43 Sele^ao das op^oes para elaboragao dos graficos. 

Por fim, em Variable..., devemos selecionar as tres variaveis e inseri-las em Joint Category Plots, conforme 
mostra a Figura 11.44. Esse procedimento gera nos outputs o mapa perceptual completo com as coordenadas de todas 
as categorias envolvidas na analise. 


f 5 * MCA: Variable Plots 


Category Plots: 



Figura 11.44 Caixa de dialogo para elabora^ao do mapa perceptual com as coordenadas das categorias. 


Na sequencia, podemos clicar em Continue e em OK. 

O primeiro output relevante encontra-se na Figura 11.45, em que sao apresentados os valores das inercias 
principais parciais das duas primeiras dimensoes, cujos valores sao iguais aos apresentados na se^ao 11.3.2, ou seja: 

J A* =0,602 

[A 2 =0,436 
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Model Summary 


Dimension 

Cronbach's 

Alpha 

Variance Accounted For | 

Total 

(Eigenvalue) 

Inertia 

% of Variance 

1 

,670 

1,807 

,602 

60,230 

2 

,353 

1,308 

,436 

43,598 

Total 


3,115 

1,038 


Mean 

,537 a 

1,557 

,519 

51,914 


a. Mean Cronbach's Alpha is based on the mean Eigenvalue. 
Figura 11.45 Inercias principals parciais. 


E importante frisarmos que os procedimentos adotados para a elaboragao da analise de correspondence no 
SPSS geram coordenadas principals das categorias das variaveis. As Figuras 11.46, 11.47 e 11.48 apresentam as 
coordenadas de cada categoria, por variavel. 


perfil do investidor 


Points :Coordi nates 


Category 

Frequency 

Centroid Coordinates 

Dimension 

1 

2 

Conservador 

17 

1,130 

-1,481 

Mode rad o 

25 

,747 

,970 

Ag res si vo 

58 

-,653 

,016 


Variable Principal Normalization. 

Figura 11.46 Coordenadas principals - Variavel perfil. 


tipo de aplicagao financeira 


Points :Coordinates 


Category 

Frequency 

Centroid Coordinates 

Dimension 

1 

2 

Poupanga 

15 

1,382 

-1,335 

CDB 

40 

,417 

,937 

Agoes 

45 

-,831 

-.388 


Variable Principal Normalization. 

Figura 11.47 Coordenadas principals - Variavel aplicagao. 


estado civil 


Points Coordinates 




Centroid Coordinates 



Dimension 

Category 

Frequency 

1 

2 

Solteiro 

57 

-,636 

-,101 

Casado 

43 

,843 

,134 


Variable Principal Normalization. 


Figura 11.48 Coordenadas principals - Variavel estado_civil. 
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Conforme discutimos na se^ao 11.3, as coordenadas principais geradas na analise de correspondence mul- 
tipla apresentam escala reduzida se comparadas as coordenadas-padrao, o que colabora para a constru^ao de 
um mapa perceptual com pontos mais concentrados em torno da Origem. Alem disso, podemos tambem per- 
ceber, a partir dos outputs apresentados nas Figuras 11.46,11.47 e 11.48, que o SPSS apresenta as coordenadas 
das ordenadas de cada categoria ( Centroid Coordinates Dimension 2) com sinais invertidos em rela^ao aos cal- 
culados algebricamente no final da se^ao 11.3.2 e apresentados naTabela 11.28 (esse fato ocorre apenas para 
algumas versoes do SPSS). Isso, entretanto, nao altera absolutamente a interpreta^ao dos resultados da analise 
de correspondence. Com base nessas coordenadas principais, pode ser construido o mapa perceptual, apre- 
sentado na Figura 11.49. 


i.o- 


0,5-H 


w o,oH 


</> 

c 


Q -0,5- 


-1.0-1 


-1,5- 


Joint Plot of Category Points 

- A -O- 

Moderado 

CDB 


Agressivo 

o 

Solteiro 


Agoes 

A 


- 1,0 


-0,5 


0,0 0,5 

Dimension 1 


Casado 


Fbupangaj 
Conservador 


1,0 


estado civil 
O perfil do investidor 
tipo de aplicaf ao 
financeira 


Variable Principal Normalization. 


Figura 11.49 Mapa perceptual para perfil do investidor, tipo de aplica^ao financeira e estado civil. 


Com base no mapa perceptual da Figura 11.49, podemos verificar que a categoria Solteiro apresenta forte as- 
socia^ao com as categorias Agressivo e Agoes. Por outro lado, a categoria Casado encontra-se entre Conservador e 
Moderado e entre Poupanga e CDB , porem com maior proximidade de Moderado e CDB. 

Para fins didaticos, caso o pesquisador queira reproduzir os achados do exemplo desta se^ao por meio da ela- 
bora^ao de uma analise de correspondence simples (inercias, coordenadas principais e mapa perceptual), podera 
fazer uso do arquivo Burt.sav, que mostra os dados oriundos da matriz de Burt, apresentada naTabela 11.27 da 
se^ao 11.3.2. Nesse caso, o pesquisador ira perceber que os valores singulares de cada dimensao serao iguais aos 
valores das inercias principais parciais geradas por meio da analise de correspondence multipla para as respecti- 
vas dimensoes. 

Por fim, podemos verificar, ao elaborarmos o procedimento descrito, que sao geradas duas novas variaveis no 
banco de dados, chamadas pelo SPSS de OBSC01_l e OBSC02_t, conforme mostra a Figura 11.50 para as 20 
primeiras observa^oes. Essas variaveis referem-se as coordenadas da primeira e da segunda dimensoes para cada 
uma das observa^oes do banco de dados ( object scores). 

A partir das coordenadas de cada observa^ao, e possivel elaborar um grafico, que se encontra na Figura 11.51, 
com as posi^oes relativas dos estudantes e por meio do qual podemos estudar as similaridades entre eles com base 
no comportamento das variaveis perfil, aplicagao e estado_dvil. Ao contrario do que poderia ser feito a partir de um 
procedimento errado de pondera^ao arbitraria das categorias das variaveis originais, essas similaridades podem, de 
fato, ser avaliadas fazendo-se uso das coordenadas (object scores) de cada observa^ao, visto que sao variaveis metricas 
e, portanto, quantitativas. Note, inclusive, que essas novas variaveis ( OBSCOi_l e OBSC02_l) sao ortogonais, isto 
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e, apresentam correla^ao de Pearson igual a 0, em conformidade com a ortogonalidade dos eixos do grafico. Neste 
momenta, e suscitada uma analogia com os fatores gerados a partir da elabora^ao de uma analise fatorial por com- 
ponentes principals, estudada no capitulo anterior, que tambem podem ser ortogonais para determinados metodos 
de rotapao. 



Rle Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Window Help 





estudante 

perfil 

aplicacao 

esiado_dvil 

OBSCOlJ 

OBSCG2_1 


. 1.. 

Gabriela 

Conservador 

Poupanga 

Casado 

1.86 

-2.05 


.2.■ 

Luiz Felipe 

Conservador 

Poupanga 

Casado 

1.86 

-2,05 



Patricia 

Conservador 

Poupanga 

Casado 

1,86 

-2,05 


. 4 

Gustavo 

Conservador 

Poupanga 

Soiteiro 

1,04 

-2,23 


r ' s 

Leticia 

Conservador 

Poupanga 

Casado 

1,86 

-2,05 


r 6. 

Ovfdio 

Conservador 

Poupanga 

Casado 

1,86 

-2,05 


'.7 ■" 

Leonor 

Conservador 

Poupanga 

Casado 

1,86 

-2,05 


r~ 8 

Dalila 

Conservador 

Poupanga 

Casado 

1,86 

-2,05 


9 

Antonio 

Conservador 

CDB 

Casado 

1,32 

-.31 


10 

Julia 

Conservador 

CDB 

Casado 

1,32 

-,31 



| Roberto 

Conservador 

CDB 

Soiteiro 

,50 

-,49 


12.“ 

i Renata 

Conservador 

CDB 

Casado 

1,32 

-.31 


. 

Guilhemte 

Conservador 

Agoes 

Soiteiro 

-,19 

-1,51 


14 “ T: 

Rodrigo 

Conservador 

Agdes 

Soiteiro 

-.19 

-1,51 


15 

Giulia 

Conservador 

Agoes 

Casado 

,63 

-1,33 


. 16 

Felipe 

Conservador 

Agoes 

Soiteiro 

-.19 

-1,51 


17 

; Karina 

Conservador 

Agdes 

Casado 

,63 

-1,33 


18 

I Pietro 

Moderado 

Poupanga 

Soiteiro 

,83 

-,36 


19 

| Cecilia 

Moderado 

Poupanga 

Casado 

1,65 

-.18 


r" 20 

Gisele 

Moderado 

Poupanga 

Casado 

1,65 

-18 



Figura 11.50 Banco de dados com as coordenadas das observances {object scores). 


Essa e uma das principals contributes da analise de correspondencia multipla, uma vez que, a partir dessas 
coordenadas, pode-se, por exemplo, elaborar uma analise de agrupamentos. A propria inclusao das coordenadas 
como variaveis explicativas em tecnicas confirmatorias, como analise de regressao, pode fazer algum sentido para 
efeitos de diagnostico sobre o comportamento de determinado fenomeno em estudo, dependendo dos interesses 
e dos objetivos do pesquisador. 


Biplot 



Dimension 1 

Variable Principal Normalization. 

Figura 11.51 Posi^oes relativas das observances da amostra. 
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Como as variaveis perfil e aplicagao possuem tres categorias, e a variavel estado_civil , duas categorias, existem 18 
possibilidades de combina^ao para cada uma das observances da amostra (3x3x2 = 18), sendo que, dessas, 17 
combinanoes ocorrem em nosso exemplo, uma vez que nao ha qualquer estudante que apresente perfil agressivo, 
aplique seus recursos financeiros em poupanga e seja casado. Note, no grafico da Figura 11.51, que realmente 17 
pontos sao plotados, e a maioria deles representa o comportamento de mais de um estudante. 

Alem disso, o pesquisador tambem pode desejar estudar as posinoes relativas dos estudantes com base na ex- 
plicitanao, no grafico, das categorias de cada uma das variaveis, em vez da identificanao de cada observanao. Os 
graficos das Figuras 11.52,11.53 e 11.54 explicitam, para cada um dos 17 pontos, as categorias das variaveis perfil, 
aplicagao e estado_civil, respectivamente. 


Object Points Labeled by perfil do investidor 
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Moderado q Moderado 

Moderado Moderado 
a - Agressivo 

gre s ^Agressivo OAgressivo 
Agressivo & Agress|v 9 
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Conservador 


AgressivoAgressivo 
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ConservadorOConservador 

O 

Conservador r 


ConservadoiOConservador 
O Conservador 

Conservador 


0 1 

Dimension 1 


Variable Principal Normalization. 


Figura 11.52 Posi<;6es relativas das observances da amostra - Categorias da variavel perfil. 
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Object Points Labeled by tipo de aplicapao financeira 
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Variable Principal Normalization. 
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Figura 11.53 Posi^oes relativas das observances da amostra - Categorias da variavel aplicagao. 
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Figura 11.54 Posigoes relativas das observances da amostra - Categorias da variavel estado_civil. 

Note que ha certa separa^ao entre as categorias das variaveis nos graficos das Figuras 11.52, 11.53 e 11.54, 
principalmente para coordenadas mais afastadas da Origem, o que refor^a ainda mais a existencia de associa^ao 
entre o perfil do investidor, o tipo de aplica^ao financeira e seu estado civil. 

Apresentados os procedimentos para aplica^ao da analise de correspondencia simples e da analise de corres¬ 
pondencia multipla no SPSS, partiremos para a elabora^ao das tecnicas no Stata. 

11.5. ANALISE de correspondencia simples e multipla no software stata 

Apresentaremos agora o passo a passo para a elabora^ao dos nossos exemplos no Stata Statistical Software®. 
Nosso objetivo, nesta se^ao, nao e discutir novamente os conceitos pertinentes a analise de correspondencia, po- 
rem propiciar ao pesquisador uma oportunidade de elaborar as tecnicas por meio dos comandos desse software. 
A cada apresenta^ao de um output , faremos men^ao ao respectivo resultado obtido quando da elabora^ao da tec- 
nica de forma algebrica e tambem por meio do SPSS. A reprodu^ao das imagens apresentadas nesta se^ao tern 
autoriza^ao da StataCorp LP®. 

11.5.1. Elaboragao da analise de correspondencia simples no software Stata 

Seguindo, portanto, a mesma logica proposta quando da elabora^ao da tecnica de analise de correspondencia 
simples no software SPSS, ja partiremos para o banco de dados construido pelo professor a partir dos questiona- 
mentos feitos a cada um de seus 100 estudantes. O banco de dados encontra-se no arquivo Perfil_Investidor x 
Aplica^ao.dta e e exatamente igual ao apresentado parcialmente naTabela 11.7 da se^ao 11.2.5. Note que os 
rotulos das categorias das variaveis perfil e aplicagao ja estao definidos no banco de dados. 

Inicialmente, podemos digitar o comando desc, que possibilita analisarmos as caracteristicas do banco de dados, 
como a quantidade de observa^oes, a quantidade de variaveis e a descri^ao de cada uma delas.A Figura 11.55 apresenta 
esse primeiro output do Stata. 


. desc 

obs: 

vars: 

size: 

100 

3 

1,700 (99.9% of memory free) 


1 storage 

1 variable name type 

display 

format 

value 

label 

variable label 

estudante 

strll 

%lls 



perfil 

byte 

%11. Og 

perfil 

perfil do investidor 

aplicagao 

byte 

%14.Og 

aplicaqiao 

tipo de aplica<;ao financeira 

|| Sorted by: 


Figura 11.55 Descrigao do banco de dados PerfilJnvestidor x Aplicaqao.dta. 
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O comando tab2 permite gerar a tabela de contingencia correspondente ao cruzamento das categorias de 
duas variaveis. Ao digitarmos o seguinte comando, poderemos analisar a distribui^ao das frequencias absolutas 
observadas por categoria, bem como avaliar a significancia estatistica da associa^ao entre as duas variaveis (termo 

chi2). 

tab2 perfil aplica$ao, chi2 

A Figura 11.56 apresenta o output gerado. 


. tab perfil aplicagao, chi2 


perfil do 
investidor 


Conservador 

Moderado 

Agressivo 


Total | 


tipo de aplicagao financeira 
Poupanga CDB Agoes | 


8 4 5 

5 16 4 

2 20 36 

- + 

15 40 45 | 


Total 


17 

25 

58 


100 


Pearson chi2(4) = 31.7642 Pr = 0.000 


Figura 11.56 Tabela de contingencia com frequencias absolutas observadas e teste x 1 . 


A partir do resultado do teste j£ 2 , podemos afirmar, para o nivel de significancia de 5% e para 4 graus de liber- 
dade, que existe associa^ao estatisticamente significante entre as variaveis perfil e aplicagao , visto que xf caX ~ 31,76 
( X 2 calculado para 4 graus de liberdade) e Prob. xf caX < 0,05. Dado que a associa^ao entre as duas variaveis nao se 
da de forma aleatoria, podemos, por meio da analise dos residuos padronizados ajustados, estudar a rela^ao de depen¬ 
dence entre cada par de categorias. No Stata, o comando tab2 nao permite gerar esses residuos nos outputs, porem 
o comando tabchi, desenvolvido a partir de um modulo de tabula^ao criado por Nicholas J. Cox, faz os residuos 
padronizados ajustados serem calculados. Para que esse comando seja utilizado, devemos inicialmente digitar: 

findit tabchi 

e instala-lo no link tab chi from http://fmwww.bc.edu/RePEc/bocode/t . Feito isso,podemos digitar o se¬ 
guinte comando: 

tabchi perfil aplicagao, a 

Os outputs encontram-se na Figura 11.57, que mostra, alem do apresentado na Figura 11.56, as frequencias ab¬ 
solutas esperadas e os residuos padronizados ajustados por celula, em conformidade com o apresentado nas Tabelas 
11.9 e 11.13 da se$ao 11.2.5, e tambem na Figura 11.18 quando da elabora^ao da tecnica no SPSS (se^ao 11.4.1). 


. tabchi perfil aplicagao, a 

observed frequency- 
expected frequency 
adjusted residual 


perfil do | tipo de aplicagao financeira 


investidor 

Poupanga 

CDB 

Agoes 

Conservador 

8 

2.550 

4.063 

4 

6.800 

-1.522 

5 

7.650 

-1.418 

Moderado 

5 

3.750 

0.808 

16 

10.000 

2.828 

4 

11.250 

-3.366 

Agressivo 

2 

8.700 

-3.802 

20 

23.200 

-1.323 

36 

26.100 

4.032 


2 cells with expected frequency < 5 

Pearson chi2(4) = 31.7642 Pr = 0.000 

likelihood-ratio chi2(4) = 30.7767 Pr = 0.000 


Figura 11.57 Tabela de frequencias e de residuos padronizados ajustados para perfil e aplicagao. 
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Assim como discutido anteriormente, podemos verificar que ha dependencia entre as categorias Conservador 
e Poupanga, entre Moderado e CDB e entre Agressivo e A goes, uma vez que os residuos padronizados das celulas 
correspondentes sao, respectivamente, iguais a 4,063,2,828 e 4,032 (positivos e maiores que 1,96). 

Verificada a existencia de associa^ao estatisticamente significante entre as variaveis perfil e aplicagao e identifica- 
das as relates de dependencia entre suas categorias, podemos digitar o comando da analise de correspondence 
simples, que faz com que sejam calculadas as coordenadas de cada categoria a partir das quais pode ser construido 
o mapa perceptual no Stata. O comando e: 

ca perfil aplicagao 

Os outputs gerados encontram-se na Figura 11.58. 


. ca perfil aplicagao 


Correspondence analysis 


Number 

of obs 

= 

100 





Pearson chi2(4) 

= 

31.76 





Prob > 

chi2 

= 

0.0000 





Total 

inertia 

= 

0.3176 

3 

active rows 



Number 

of dim. 

= 

2 

3 

active columns 



Expl. 

inertia (%) 

= 

100.00 


1 

singular 

principal 




cumul 


Dimension j 

value 

inertia 

chi2 

percent 


percent 


dim 1 | 

.4829233 

.2332149 

23.32 

73.42 


73.42 


dim 2 | 

.2905629 

.0844268 

8.44 

26.58 


100.00 


total 1 


.3176416 

31.76 

100 




Statistics for row and column categories in symmetric normalization 


overall | dimension_l | dimension_2 


Categories 

| mass 

quality 

%inert 

j coord 

sqcorr 

contrib 

| coord 

sqcorr 

contrib 

perfil 

Conservador 

Moderado 

Agressivo 

0.170 

0.250 

0.580 

1.000 

1.000 

1.000 

0.432 

0.274 

0.295 

1.132 

0.553 

-0.570 

0.767 

0.425 

0.973 

0.451 , 

0.158 

0.391 

0.805 

-0.829 

0.122 

0.233 

0.575 

0.027 

0.379 

0.592 

0.029 

aplicagao 

Poupanga 

CDB 

Aqoes 

0.150 

0.400 

0.450 

1.000 

1.000 

1.000 

0.542 

0.164 

0.294 

1.475 

0.102 

-0.582 

0.914 

0.039 

0.789 

0.675 

0.009 

0.316 

0.582 

-0.655 

0.389 

0.086 

0.961 

0.211 

0.175 

0.591 

0.234 


Figura 11.58 Outputs da analise de correspondence simples no Stata. 


Note, com base na analise dos outputs da Figura 11.58, que as inercias principal parciais correspondem as 
calculadas algebricamente na se^ao 11.2.5 e tambem apresentadas na Figura 11.30 da sefao 11.4.1 e, por meio 
delas, e possivel afirmar que as dimensoes 1 e 2 explicam, respectivamente, 73,42% (0,2332 / 0,3176) e 26,58% 
(0,0844 / 0,3176) da inercia principal total. Alem disso, as coordenadas (dimensional coord e dimension_2 
coord) tambem correspondem as calculadas algebricamente, bem como as apresentadas pelo SPSS, conforme 
discutido na se^ao 11.4.1. 

Ainda com base nos outputs da Figura 11.58, e possivel afirmar, para a variavel perfil, que, enquanto a categoria 
Conservador e a mais representativa para a composi^ao inercial da primeira dimensao (dimensional contrib = 
45,1%), a categoria Moderado e a mais representativa para a composi^ao inercial da segunda dimensao (dimen¬ 
sion^ contrib = 59,2%).Ja para a variavel aplicagao, enquanto a categoria Poupanga e a mais representativa para 
a composi^ao inercial da primeira dimensao (dimensional contrib = 67,5%), a categoria CDB e a mais repre¬ 
sentativa para a composi^ao inercial da segunda dimensao (dimension_2 contrib = 59,1%). 

Um primeiro grafico pode ser construido a partir das coordenadas apresentadas na Figura 11.58 e e conhe- 
cido por grafico de proje^ao das coordenadas nas dimensSes, pois permite analisar isoladamente o corn- 
portamento de cada categoria em cada dimensao. Para elaborarmos esse grafico, que se encontra na Figura 11.59, 
precisamos digitar o seguinte comando: 

caproj ection 

que somente pode ser aplicado apos a elabora^ao da Figura 11.58 (comando ca). 
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Figura 11.59 Grafico de proje^ao das coordenadas nas dimensoes. 


O grafico de proje^ao das coordenadas nas dimensoes pode ser bastante util para estudar a logica do sequencia- 
mento das categorias, principalmente em variaveis qualitativas ordinais. Para os dados de nosso exemplo, podemos 
verificar que existe logica na ordena^ao dos pontos referentes as categorias das variaveis para a primeira dimensao, 
com destaque para a variavel perfil, de fato, ordinal. Alem disso, tambem podemos observar que os pontos se encon- 
tram em lados opostos e relativamente afastados da Origem para o eixo da primeira dimensao, o que e adequado 
para a elabora^ao da analise de correspondence simples, pois permite melhor visualiza^ao do mapa perceptual. 

O mapa perceptual propriamente dito pode ser construido a partir da digita^ao do seguinte comando: 

cabiplot, origin 

que tambem so pode ser aplicado apos a elabora^ao da Figura 11.58 (comando ca). O mapa perceptual que mos- 
tra a rela^ao entre as categorias de perfil e aplicagao encontra-se na Figura 11.60. 



Figura 11.60 Mapa perceptual para perfil do investidor e tipo de aplica^ao financeira. 

Apresentados os comandos para a realizagao da analise de correspondence simples no Stata, partiremos para 
a elabora^ao da analise de correspondence multipla no mesmo software. 
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11.5.2. Elaborate da analise de correspondencia multipla no software Stata 

Seguindo a mesma logica proposta quando da elabora^ao da tecnica de analise de correspondencia multipla 
no SPSS, ja partiremos para o banco de dados construido pelo professor a partir dos questionamentos feitos a 
cada um de seus 100 estudantes. O banco de dados encontra-se no arquivo Perfil_Investidor x Aplicagao x 
Estado_Civil.dta e e exatamente igual ao apresentado parcialmente naTabela 11.21 da se^ao 11.3.2. Note que 
os rotulos das categorias das variaveis perfil, aplicagao e estado_civil ja estao definidos no banco de dados. 

O primeiro output , que se encontra na Figura 11.61, gerado a partir do comando desc, apresenta as caracte- 
risticas do banco de dados, como a quantidade de observances e a descri^ao de cada variavel. 


. desc 


obs: 

vars: 

size: 

100 

4 

2,100 

(99.9% of 

memory free) 




storage 

display 

value 



variable name 

type 

format 

label 

variable 

label 

estudante 

strll 

%lls 




perfil 

byte 

%11.Og 

perfil 

perfil do 

investidor 

aplicagao 

byte 

%14.Og 

aplicagao 

tipo de aplicagao financeira 

estadocivil 

float 

%9. Og 

estcivil 

estado civil 


Sorted by; 


Figura 11.61 Descri^ao do banco de dados Perfiljnvestidor x Aplicagao x Estado_Civil.dta 


Conforme discutimos, a fim de que seja elaborado o diagnostico sobre a existencia de associa^ao entre as va¬ 
riaveis e, consequentemente, sobre a eventual necessidade de que alguma delas precise ser eliminada da analise, 
devemos gerar as tabelas de frequences absolutas observadas para cada par de variaveis com os respectivos testes 
% 2 . Para tanto, devemos digitar o seguinte comando: 

tab2 perfil aplicagao estado_civil, chi2 

Os outputs encontram-se na Figura 11.62, por meio dos quais podemos verificar que todos os pares de vari¬ 
aveis apresentam associa^ao estatisticamente significante, ao mvel de significance de 5%. Para que determinada 
variavel seja incluida em uma analise de correspondencia multipla, e preciso que se associe de maneira estatisti¬ 
camente significante a pelo menos uma das demais variaveis. 


. tab2 perfil 

aplicagao estado_civil, 

chi2 


-> tabulation 

of perfil 

by aplicagao 



perfil do | 

tipo de 

aplicagao financeira 


investidor j 

Poupanga 

CDB 

Agoes | 

Total 

Conservador | 

8 

4 

5 i 

17 

Moderado j 

5 

16 

4 1 

25 

Agressivo j 

2 

20 

36 | 

58 


Total | 15 40 45 | 

Pearson chi2(4) = 31.7642 Pr = 0.000 

-> tabulation of perfil by estado_civil 

perfil do | estado civil 

investidor j Solteiro Casado | Total 


Conservador 

Moderado 

Agressivo 


5 

11 

41 


12 | 
14 | 
17 | 


17 

25 

58 


Total | 57 43 | 100 

Pearson chi2(2) = 11.4376 Pr = 0.003 

-> tabulation of aplicagao by estadocivil 
tipo de | 

aplicagao | estado civil 

financeira j Solteiro Casado | Total 


Poupanga 

CDB 

Agoes 


5 

16 

36 


10 

24 

9 


15 

40 

45 


Total | 57 43 | 100 

Pearson chi2(2) = 17.8567 Pr = 0.000 


Figura 11.62 Tabelas de contingency com frequences absolutas observadas e testes 



















494 Manual de Analise de Dados: Estatfstica e Modelagem Multivariada com Excel®, SPSS® e Stata' 


Visto que todas as variaveis devem ser incluidas na analise de correspondence multipla, podemos partir para 
a elabora^ao propriamente dita da tecnica, digitando o seguinte comando: 

mca perfil aplicagao estado_civil, method(indicator) 

em que o termo method (indicator) corresponde ao metodo da matriz binaria Z, discutido na se^ao 11.3, que 
gera coordenadas-padrao para cada uma das categorias das variaveis. Os outputs encontram-se na Figura 11.63. 


. mca perfil aplicagao estadocivil, method(indicator) 

Multiple/Joint correspondence analysis Number of obs = 100 

Total inertia = 1.666667 

Method: Indicator matrix Number of axes = 2 


principal cumul 


Dimension 

inertia 

percent 

percent 

dim 1 

.6023045 

36.14 

36.14 

dim 2 

.4359878 

26.16 

62.30 

dim 3 

.2764728 

16.59 

78.89 

dim 4 

.1798371 

10.79 

89.68 

dim 5 

.1720645 

10.32 

100.00 

Total 1 

j 1.666667 

100.00 



Statistics for column categories in standard normalization 

| overall | dimensionl | dimension_2 

Categories j mass quality %inert | coord sqcorr contrib j coord sqcorr contrib 


perfil 


Conservador 
Moderado 
Agressivo 

0.057 

0.083 

0.193 

0.712 

0.503 

0.589 

0.166 

0.150 

0.084 

1.456 

0.962 

-0.841 

0.262 

0.186 

0.589 

0.093 

0.060 

0.106 

2.247 

-1.476 

-0.022 

0.451 

0.317 

0.000 

0.189 

0.120 

0.000 

aplicagao 

Poupanga 

CDB 

Agoes 

0.050 

0.133 

0.150 

0.649 

0.699 

0.688 

0.170 

0.120 

0.110 

1.780 

0.538 

-1.071 

0.337 

0.116 

0.565 

0.123 

0.030 

0.134 

2.016 

-1.416 

0.587 

0.313 

0.583 

0.123 

0.134 

0.177 

0.034 

estado_civil | 
Solteiro j 
Casado | 

0.190 

0.143 

0.549 

0.549 

0.086 

0.114 

-0.820 

1.086 

0.536 

0.536 

! 

0.099 
0.131 | 

! 

| 0.150 

| -0.199 

0.013 

0.013 

0.003 

0.004 


Figura 11.63 Outputs da analise de correspondence multipla no Stata - Coordenadas-padrao. 


Note, com base nos outputs da Figura 11.63, que as coordenadas das categorias das variaveis perfil, aplicagao e 
estado_civil para as duas dimensoes (dimensional coord e dimension_2 coord) sao exatamente iguais as calcu- 
ladas algebricamente na se^ao 11.3.2 e apresentadas naTabela 11.26 (coordenadas-padrao). Alem disso, a inercia 
principal total da matriz binaria Z e igual a: 


, _J~Q — 8—3 

T Q 3 


1,6667 


em que J representa o numero de categorias de todas as variaveis envolvidas na analise (J = 8), e Q, o numero de 
variaveis (Q = 3). Portanto, podem ser calculadas as inercias principais parciais das J— Q = 8 — 3 = 5 dimensoes, 
cujos valores sao: 

A 2 ! =0,6023 
A 2 =0,4360 
• A 2 =0,2765 
A 2 =0,1798 
A 2 =0,1721 


de onde podemos comprovar que I T = A 2 + A 2 + A 2 + A 2 + A 5 = 1,6667, conforme tambem calculado algebri- 
camente na se^ao 11.3.2. 

Analogamente ao realizado na se^ao 11.5.1, podemos inicialmente construir, a partir das coordenadas-padrao 
apresentadas na Figura 11.63, o grafico de proje^ao das coordenadas nas dimensoes, que se encontra na Figura 
11.64. Para tanto, devemos digitar o seguinte comando: 

mcaprojection, normalize(standard) 
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Para os dados do nosso exemplo, podemos verificar, a partir do grafico de proje^ao das coordenadas nas di- 
mensoes, que existe logica na ordena^ao dos pontos referentes as categorias das variaveis para a primeira dimen- 
sao, com destaque para a variavel perfil , de fato, ordinal. Alem disso, tambem podemos observar que os pontos se 
encontram em lados opostos e relativamente afastados da Origem para o eixo da primeira dimensao, o que po- 
de ser bastante adequado para melhor visualizagao do mapa perceptual da analise de correspondencia multipla. 

Dando sequencia a analise, caso o pesquisador queira obter a matriz binaria Z, deve simplesmente digitar o 
comando a seguir: 

xi i.perfil i.aplicagao i.estado_civil, noomit 


MCA dimension projection plot 



O perfil 


M estado_civil 


APoupanpa 


APoupanpa 


Acdb 


AA?6es 


Agoes 


Dimensions 


. aplicagao 


standard normalization 


Acdb 


2 


Figura 11.64 Grafico de proje<;ao das coordenadas nas dimensoes. 


A Figura 11.65 mostra a matriz binaria Z gerada no proprio banco de dados, para as 20 primeiras observagoes. E 
importante salientar que essa matriz pode ser utilizada para o calculo das inercias principals parciais das cinco dimen¬ 
soes do nosso exemplo, desde que considerada uma tabela de contingencia. Em outras palavras, para aplicar uma ana¬ 
lise de correspondencia simples e calcular as inercias principals parciais apresentadas na Figura 11.63, a matriz binaria 
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Z deve ser transformada em um banco de dados bivariado, que devera possuir 300 linhas. O arquivo Matriz Binaria 
Z.dta contem o banco de dados correspondente a matriz binaria Z do nosso exemplo, e, caso o pesquisador deseje 
aplicar a analise de correspondence simples as suas duas variaveis, para efeitos didaticos, ira verificar que serao geradas 
exatamente as mesmas cinco inercias principais parciais obtidas quando da elabora^ao da analise de correspondence 
multipla no banco de dados original. 
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perfil 

aplicacao 

estado_eivil 
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_iperf11_3 
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Figura 11.65 Banco de dados com a matriz binaria Z. 

A partir das coordenadas-padrao apresentadas na Figura 11.63, podemos construir o mapa perceptual propria- 
mente dito, que se encontra na Figura 11.66, por meio da digita^ao do seguinte comando: 

mcaplot, overlay origin dim(2 1) 


cm 

CM 

c 

o 


-2 


MCA coordinate plot 


- 


- 

O Conservador 

Poupan?aA 

A9oes^ 


Solteirojp. 


OAgressivu 

Casado* 


CDB A q M 0( jerado 

I I 

i i 


-i o 

dimension 1 (36.1%) 


O perfil 


aplica$ao 


estado_civil 


coordinates in standard normalization 


Figura 11.66 Mapa perceptual para perfil do investidor, tipo de aplica^ao financeira e estado civil. 


O mapa perceptual construido pelo Stata e o mesmo apresentado na Figura 11.12 da se^ao 11.3.2, porem 
possui uma escala menos reduzida se comparado aquele construido pelo SPSS, visto que, para o procedimento 
adotado na se^ao 11.4.2, o SPSS gera coordenadas principais para as categorias das variaveis. Conforme tambem 
discutido na se^ao 11.3.2, sao somente plotadas no mapa perceptual as coordenadas-padrao das dimensoes que 
apresentam inercias principais parciais superiores a 0,3333, valor da media da inercia principal total por dimensao 
(1,6667 7 5 = 0,3333). Portanto, como as inercias principais parciais das duas primeiras dimensoes sao iguais a 
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0,6023 e 0,4360, essas dimensoes explicam, respectivamente, 36,1% e 26,2% da inercia principal total, conforme 
mostra o mapa perceptual da Figura 11.66. 

Caso o pesquisador deseje elaborar o mapa perceptual destacando as massas das categorias no proprio mapa, 
podera recorrer ao comando svmat2, desenvolvido por Nicholas J. Cox. Para usa-lo, devemos inicialmente digitar: 

findit svmat2 

e instala-lo no link dm79 from http : //www.stata.com/stb/stb56&#8243 . Feito isso, podemos digitar a se- 
guinte sequencia de comandos: 

mca perfil aplicagao estado_civil, method(indicator) 

mat mcamat=e(cGS) 

mat colnames mcamat = mass qual inert col rell absl co2 rel2 abs2 

svmat2 mcamat, rname (varname) name (col) 

Esses comandos criam novas variaveis no banco de dados que trazem informa^oes sobre as matrizes geradas 
apos a elabora^ao da analise de correspondence multipla, entre as quais as massas e as coordenadas de cada cate- 
goria. O novo mapa perceptual pode, portanto, ser construido, com os pontos referentes a cada categoria apre- 
sentando diametros proporcionais as respectivas massas. Para tanto, devemos digitar o seguinte comando: 

graph twoway scatter co2 col [aweight=mass], xline(O) yline(O) || 
scatter co2 col, mlabel(varname) legend(off) 

O novo mapa perceptual encontra-se na Figura 11.67. 
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Figura 11.67 Mapa perceptual para perfil do investidor, tipo de aplica^ao financeira e estado civil, 
com pondera^oes pelas massas de cada categoria. 

Assim como realizado na se^ao 11.4.1 quando da elabora^ao da tecnica no SPSS, podemos criar duas novas 
variaveis no banco de dados, correspondentes as coordenadas de cada uma das observa^oes da amostra, digitando 
o seguinte comando: 

predict al a2 

Note que as coordenadas de cada observa^ao sao exatamente as mesmas geradas pelo SPSS, embora as coor¬ 
denadas das categorias tenham sido calculadas por meio de procedimentos distintos (coordenadas-padrao para 
o Stata e coordenadas principais para o SPSS). Portanto, a partir das coordenadas de cada observagao, e possivel 
elaborar um grafico, que se encontra na Figura 11.68, com as posi^oes relativas dos estudantes. As variaveis que 
contem essas coordenadas sao ortogonais e analogas aos fatores criados por meio de uma analise fatorial por com- 
ponentes principais, e, a partir delas, podem ser elaboradas tecnicas como analise de agrupamentos, a fim de que 
sejam, por exemplo, agrupados estudantes com caracteristicas similares entre si. Para que esse grafico seja cons¬ 
truido, precisamos digitar o seguinte comando: 

graph twoway scatter a2 al, xline(O) yline(O) mlabel(estudante) 
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Figura 11.68 Posig5es relativas das observances da amostra. 


Por fim, caso o pesquisador queira obter as coordenadas principals calculadas a partir do metodo da matriz de 
Burt, podera digitar o seguinte comando, que gerara os outputs da Figura 11.69. Note que as coordenadas apre- 
sentadas nessa figura correspondem as apresentadas nas Figuras 11.46,11.47 e 11.48, obtidas quando da aplica^ao 
da tecnica no SPSS, com exce^ao dos sinais invertidos para as ordenadas e de pequenos erros de arredondamento. 

mca perfil aplicagao estado_civil, method(indicator) normalize 
(principal) 

em que o termo normalize (principal) faz com que sejam geradas as coordenadas principals, em vez das co- 
ordenadas-padrao apresentadas na Figura 11.63. 


. mca perfil aplicaqao estadocivil, method (indicator) normalize (principal) 

Multiple/Joint correspondence analysis Number of obs = 100 

Total inertia = 1.666667 

Method: Indicator matrix Number of axes = 2 


principal cumul 


Dimension 

inertia 

percent 

percent 

dim 1 

.6023045 

36.14 

36.14 

dim 2 

.4359878 

26.16 

62.30 

dim 3 

.2764728 

16.59 

78.89 

dim 4 

.1798371 

10.79 

89.68 

dim 5 

.1720645 

10.32 

100.00 

Total I 

1 1.666667 

100.00 



Statistics for column categories in principal normalization 


overall | dimension_l | dimension_2 


Categories 

j mass 

quality 

%inert 

j coord 

sqcorr 

contrib 

j coord 

sqcorr 

contrib 

perfil 










Conservador 

0.057 

0.712 

0.166 

1.130 

0.262 

0.093 

1.484 

0.451 

0.189 

Moderado 

0.083 

0.503 

0.150 

0.747 

0.186 

0.060 

-0.975 

0.317 

0.120 

Agressivo 

0.193 

0.589 

0.084 

-0.653 

0.589 

0.106 

-0.015 

0.000 

0.000 

aplicaqao 






i 




Poupanqa 

0.050 

0.649 

0.170 

1.381 

0.337 

0.123 

1.331 

0.313 

0.134 

CDB 

0.133 

0.699 

0.120 

0.417 

0.116 

0.030 

-0.935 

0.583 

0.177 

Aqoes 

0.150 

0.688 

0.110 

-0.831 

0.565 

0.134 

0.388 

0.123 

0.034 

estado_civil 










Solteiro 

0.190 

0.549 

0.086 

-0.636 

0.536 

0.099 

0.099 

0.013 

0.003 

Casado 

0.143 

0.549 

0.114 

0.843 

0.536 

0.131 | 

-0.131 

0.013 

0.004 


Figura 11.69 Outputs da analise de correspondence multipla no Stata - Coordenadas principals. 
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Conforme discutimos na se^ao 11.3, as coordenadas principals de determinada dimensao sao calculadas mul- 
tiplicando-se as coordenadas-padrao pela raiz quadrada da inercia principal parcial daquela dimensao. Isso pode 
ser facilmente verificado a partir dos resultados apresentados nas Figuras 11.63 e 11.69. 

Alem disso, caso o pesquisador tambem queira obter as coordenadas principals das categorias das variaveis 
aplicando uma analise de correspondence simples aos dados gerados a partir da matriz de Burt do nosso exemplo, 
podera utilizar o arquivo Burt.dta. Nesse caso, e importante apenas atentar para o fato de que os valores singu¬ 
lars de cada dimensao correspondent aos valores das inercias principals parciais geradas por meio da analise de 
correspondence multipla para as respectivas dimensoes. 

11.6. CONSIDERA0ES FINAIS 

As tabelas de contingencia se apresentam com bastante frequencia em diversos campos do conhecimento, pela 
forte presenga de variaveis categoricas, como sexo, faixas de idade ou de renda e caracteristicas comportamentais, 
setoriais ou de localidade. O estudo aprofundado dessas tabelas, no entanto, ainda e pouco explorado no sentido 
de se construirem mapas perceptuais que permitem ao pesquisador avaliar, visualmente, as associates entre va¬ 
riaveis e entre suas categorias. 

Nesse sentido, as tecnicas de analise de correspondence simples e de analise de correspondence multipla tern, 
por principal objetivo, avaliar a significance da associa^ao entre variaveis categoricas e entre suas categorias, gerar 
coordenadas das categorias e construir, a partir dessas coordenadas, mapas perceptuais. Enquanto a primeira e uma 
tecnica que permite avaliar a associa^ao entre apenas duas variaveis categoricas e entre suas categorias, a segunda e 
uma tecnica multivariada em que sao estudadas as associates entre mais de duas variaveis categoricas e entre cada 
par de categorias. Essas tecnicas permitem, portanto, aprimorar os processos decisorios com base no comportamento 
e na rela^ao de interdependence entre variaveis que apresentam alguma forma de categoriza^ao. 

Enfatiza-se que a aplica^ao de tecnicas exploratorias, como a analise de correspondence, deve ser feita por meio 
do correto e consciente uso do software escolhido para a modelagem, com base na teoria subjacente e na experi¬ 
ence e intui^ao do pesquisador. 

11.7. EXERCICIOS 

1. Com o intuito de estudar a associa^ao entre a percep^ao dos clientes sobre a qualidade do atendimento prestado e a 
percep^ao sobre o nivel de pre^os praticados em rela^ao a concorrencia, um estabelecimento supermercadista realizou 
uma pesquisa com 3.000 consumidores dentro da loja, coletando dados de variaveis com as seguintes caracteristicas: 


Variavel 

Descri^ao 

id 

Variavel string (de 0001 a 3000) que identifica o consumidor e que nao sera 
utilizada na modelagem. 

atendimento 

Variavel qualitativa ordinal com cinco categorias, correspondente a percep^ao 
sobre a qualidade do atendimento prestado pelo estabelecimento (pessimo = 

1; ruim = 2; regular = 3; bom = 4; otimo = 5). 

prego 

Variavel qualitativa ordinal com cinco categorias, correspondente a percep^ao 
sobre o nivel de pre^os praticados em rela^ao a concorrencia (pessimo = 1; 
ruim = 2; regular = 3; bom = 4; otimo = 5). 


Por meio da analise do banco de dados presente nos arquivos Atendimento x Pre^o.sav e Atendimento 
x Pre^o.dta, pede-se: 

a. Elabore uma tabela de contingencia com os valores das frequences absolutas observadas em cada celula a 
partir do cruzamento das categorias das variaveis atendimento e prego. 

b. Apresente a tabela de frequences absolutas esperadas a partir do mesmo cruzamento. 

c. Com base na estatistica ^ 2 , e possivel afirmar que existe associa^ao estatisticamente significante, ao nivel de 
significance de 5%, entre as variaveis atendimento e prego? 

d. Apresente a tabela de residuos padronizados ajustados. Com base nela, discuta a rela^ao de dependence 
entre cada par de categorias. 

e. A partir da elabora^ao da analise de correspondence simples entre atendimento e prego, pergunta-se: Quais os 
valores das inercias principals parciais de cada dimensao? Quais os percentuais da inercia principal total ex- 
plicados por dimensao? 
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f. Com base nas coordenadas das categorias das variaveis atendimento e prego , obtidas a partir da elabora^ao da 
analise de correspondencia simples, elabore o mapa perceptual bidimensional e faga uma breve discussao 
sobre o comportamento dos pontos correspondentes as categorias de cada variavel. 

g. Elabore o grafico de proje^ao das coordenadas nas dimensoes (Stata) e discuta, para a primeira dimensao, 
a logica da ordena^ao das categorias das duas variaveis qualitativas ordinais ( atendimento e prego). 

2. O Ministerio da Saude de determinado pais deseja implementar uma campanha para alertar a popula^ao so¬ 
bre a importancia de se praticar exercicios fisicos para a redu^ao do indice de colesterol LDL (mg/dL). Para tanto, 
realizou uma pesquisa com 2.304 individuos, em que foram levantadas as seguintes variaveis: 


Variavel 

Descri£ao 

colestclass 

Classifica^ao do indice de colesterol LDL (mg/dL), a saber: 

- Muito elevado: superior a 189 mg/dL; 

- Elevado: de 160 a 189 mg/dL; 

- Limitrofe: de 130 a 159 mg/dL; 

- Subotimo: de 100 a 129 mg/dL; 

- Otimo: inferior a 100 mg/dL. 

esporte 

Numero de vezes em que pratica atividades flsicas semanalmente. 


Ao divulgar os resultados da pesquisa, o Ministerio da Saude apresentou a seguinte tabela de contingencia, 
com as frequencias absolutas observadas para cada cruzamento de categorias das duas variaveis. 


Classifica 9 ao do rndice de 
colesterol LDL (mg/dL) 

Atividades flsicas semanais (numero de vezes) 

0 

1 

2 

3 

4 

5 

Muito elevado 

32 

158 

264 

140 

40 

0 

Elevado 

22 

108 

178 

108 

58 

0 

Limitrofe 

0 

26 

98 

190 

86 

36 

Subotimo 

0 

16 

114 

166 

104 

54 

Otimo 

0 

0 

82 

118 

76 

30 


Note que, enquanto a variavel colestclass e qualitativa ordinal, a variavel esporte e quantitativa, porem discreta 
e com poucas possibilidades de resposta e, portanto, pode ser considerada categorica para efeitos de analise de 
correspondencia. 

Nesse sentido, pede-se: 

a. Apresente a tabela com frequencias absolutas esperadas. 

b. Elabore a tabela de residuos. 

c. Apresente a tabela de valores de X 2 P or celula e calcule o valor total da estatistica j£ 2 . 

d. Com base no valor calculado da estatistica X 2 e nos graus de liberdade da tabela de contingencia, e possivel 
afirmar que o indice de colesterol LDL e a quantidade semanal de atividades esportivas nao se associam de 
forma aleatoria, ao nivel de significance de 5%? 

e. Construa o banco de dados a partir da tabela de contingencia apresentada, e, por meio dele, elabore uma 
analise de correspondencia simples entre colestclass e esporte . Quais os valores das inercias principals parciais 
de cada dimensao? Quais os percentuais da inercia principal total explicados por dimensao? 

f. Com base nas coordenadas das categorias das variaveis colestclass e esporte obtidas a partir da elabora^ao da 
analise de correspondencia simples, elabore o mapa perceptual bidimensional e faga uma breve discussao 
sobre o comportamento dos pontos correspondentes as categorias de cada variavel. 

g. Elabore o grafico de proje^ao das coordenadas nas dimensoes (Stata) e discuta, para a primeira dimen¬ 
sao, a logica da ordena^ao das categorias das duas variaveis. 
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3. O prefeito de determinado municipio, com a inten^ao de avaliar a evolu^ao anual de sua popularidade, en- 
comendou a um instituto, em cada um dos tres ultimos anos (20X1, 20X2, 20X3), a realiza^ao de uma pesquisa 
aplicada a 3.000 cidadaos escolhidos aleatoriamente. Nas tres pesquisas realizadas, foi coletada apenas uma varia- 
vel, no formato Likert, a partir da seguinte afirmativa: 

Estou satisfeito com a gestao do atual prefeito! 

A variavel coletada apresenta as seguintes categorias de resposta: 


Variavel 

Descrifao 

avaliagao 

— Discordo totalmente; 

— Discordo parcialmente; 

— Nem concordo, nem discordo; 

— Concordo parcialmente; 

— Concordo totalmente. 


A partir dos resultados das pesquisas, foi elaborada a seguinte tabela de contingencia, porem os dados tambem 
podem ser acessados nos arquivos Gestao do Prefeito.sav e Gestao do Prefeito.dta. 


Estou satisfeito com a gestao 
do atual prefeito! 

Ano 

20X1 

20X2 

20X3 

Discordo totalmente 

0 

1 

997 

Discordo parcialmente 

1 

998 

1.005 

Nem concordo, nem discordo 

967 

1.005 

998 

Concordo parcialmente 

1.066 

996 

0 

Concordo totalmente 

966 

0 

0 

TOTAL 

3.000 

3.000 

3.000 


Pede-se: 

a. E possivel afirmar que a evolu^ao anual da popularidade do prefeito nao se da de forma aleatoria, ao nivel 
de significance de 5%? 

b. Apresente a tabela de residuos padronizados ajustados. Com base nela, discuta a rela^ao de dependence 
entre as categorias da variavel Likert e cada um dos anos em que foi aplicada a pesquisa? 

c. Com base nas coordenadas das categorias das variaveis avaliagao e ano, obtidas a partir da elabora^ao da 
analise de correspondence simples, elabore o mapa perceptual bidimensional. E possivel afirmar que a po¬ 
pularidade do prefeito vem piorando com o decorrer dos anos? 

4. Conforme propusemos ao final da resolu^ao do exercicio elaborado na se^ao 11.3.2, seria interessante tam¬ 
bem se avaliassemos a existence de associa^ao entre o fato de se ter um ou mais filhos, o perfil do investidor 
e o tipo de aplica^ao financeira. Nesse sentido, foi elaborado o banco de dados presente nos arquivos Perfil_ 
Investidor x Aplica^ao X Filhos.sav e Perfil_Investidor X Aplica£ao X Filhos.dta. Pede-se: 

a. Apresente as tabelas de contingencia e os resultados dos testes X 2 P ara cada par de variaveis. Ha associa^ao 
entre o fato de se ter um ou mais filhos, o perfil do investidor e o tipo de aplica^ao financeira, ao nivel de 
significance de 5%, ou alguma das variaveis deve ser excluida da analise? 

b. Caso nenhuma variavel seja excluida da analise, elabore a analise de correspondence multipla com as tres 
variaveis (peifil, aplicagao e filhos ). Quais as coordenadas principais e padrao das categorias de cada uma delas? 

c. Elabore o mapa perceptual bidimensional (com coordenadas-padrao) e fa$a uma breve discussao sobre o 
comportamento dos pontos correspondentes as categorias de cada variavel. E possivel afirmar que o fato 
de ter filhos aumenta a aversao ao risco? 
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5. Uma pesquisa com 500 executivos de empresas multinacionais foi realizada com o intuito de avaliar a percep- 
£ao sobre a qualidade geral do servi^o prestado e sobre o respeito aos prazos de projeto de tres grandes empresas 
de consultoria ( Gabicks , Lipehigh e Montvero). Cada executivo respondeu sobre sua percepnao em rela^ao a cada 
uma das tres empresas, e as variaveis coletadas encontram-se a seguir: 


Variavel 

Descrifao 

qualidade 

Percepnao sobre a qualidade geral do servino prestado, a saber: 

- Pessima; 

- Ruim; 

- Regular; 

- Boa; 

- Otima. 

pontualidade 

Respeito aos prazos de projeto: 

- Nao; 

- Sim. 


Por meio da analise do banco de dados presente nos arquivos Consultoria.sav e Consultoria.dta, pede-se: 

a. Apresente as tabelas de contingencia e os resultados dos testes X 2 P ara as variaveis qualidade e empresa e para 
pontualidade e empresa. Ha associa^ao entre a variavel empresa e as outras variaveis, ao nivel de significance 
de 5%? 

b. Se a resposta do item anterior for positiva, elabore uma analise de correspondence multipla com as tres 
variaveis. Quais as coordenadas principals e padrao das categorias de cada uma delas? 

c. Elabore o grafico de proje^ao das coordenadas-padrao nas dimensoes (Stata) e discuta, para a primeira di- 
mensao, a logica da ordena^ao das categorias da variavel qualidade. 

d. Elabore o mapa perceptual bidimensional (com coordenadas-padrao) e discorra sobre a leitura que os exe¬ 
cutivos fazem sobre as tres empresas de consultoria. 

e. A partir das coordenadas de cada uma das respostas dadas (1.500 observances), geradas apos a aplicanao da 
analise de correspondence multipla, elabore dois graficos (SPSS) com as posi^oes relativas dessas obser¬ 
vances, tendo em vista a explicitanao das categorias das variaveis qualidade e empresa , respectivamente. Ha 
logica nas respostas dadas pelos executivos em relanao as categorias dessas variaveis? 
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APENDICE 


Configurates do mapa perceptual de uma 
analise de correspondencia simples 


Muitas sao as configurates que podem assumir os mapas perceptuais, em fun^ao das caracteristicas das tabe- 
las de contingencia. A Figura 11.70 apresenta as configurates mais comuns. Enquanto as celulas em destaque e 
com setas T representam valores elevados de frequences absolutas observadas, as celulas com setas X representam 
valores baixos, ou ate mesmo nulos, dessas frequences. 
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a) Nuvem de Pontos Dividida em Grupos sobre a Primeira Dimensao 
(pelo menos uma variavel com duas categorias) 
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b) Nuvem de Pontos Divida em Grupos nas Duas Dimensoes 
(variaveis com pelo menos tres categorias) 
(corresponde aos dados do exemplo da segao 3.2.5) 
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c) Forma Parabolica da Nuvem de Pontos 

(estrutura diagonal da tabela de contingency para mais de tres categorias em cada variavel) 
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d) Forma Circular da Nuvem de Pontos 
(mais de uma estrutura diagonal na tabela de contingency) 
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Figura 11.70 Configuragoes do mapa perceptual de uma analise de correspondency 
simples em fungao das caracteristicas da tabela de contingency. 

Fonte: Pereira e Sousa (2015). 




TECNICAS MULTIVARIADAS 
CONFIRMATORIAS: MODELOS 
DE REGRESSAO 


Talvez a mais famosa equa^ao ja desenvolvida na historia da humanidade seja aquela atribuida a Albert 
Einstein, E = m.c 2 . Embora Einstein nao a tenha formulado exatamente dessa forma em seu seminal artigo “A 
inercia de um corpo depende da sua quantidade de energia?”, publicado no annus mirabilis de 1905 na Annalen 
der Physik, tal equa^ao tornou-se mundialmente famosa por sua simplicidade ao tentar relacionar massa e energia 
de corpos fisicos e, com esse proposito, pode ser classificada como um modelo de regressao. 

O conjunto de tecnicas de regressao e muito provavelmente o mais utilizado em analises de dados que 
procuram entender a rela^ao entre o comportamento de determinado fenomeno e o comportamento de uma ou 
mais variaveis potencialmente preditoras, sem que haja, entretanto, uma rela^ao obrigatoria de causa e efeito. Por 
exemplo, a rela^ao entre a quantidade de horas de estudo na prepara^ao e as notas no vestibular para Medicina 
e, obviamente, de natureza causal, ou seja, quanto maior a dedica^ao aos estudos, maiores serao as notas no ves¬ 
tibular, mesmo que tambem existam outros fatores que possam influenciar as notas no exame, como ansiedade e 
poder de concentra^ao do candidato. 

Por outro lado, existem situates em que o fenomeno em estudo apresenta rela^ao com determinada variavel 
inserida no modelo, sem que essa rela^ao seja, de fato, de natureza causal. Nesses casos, e comum que uma terceira 
variavel nao observada esteja influenciando o comportamento tanto do fenomeno em estudo quanto da variavel 
preditora. Gustav Fischer, em 1936, apresentou um estudo bastante interessante sobre esse fato ao investigar ao 
longo de 7 anos a rela^ao entre a quantidade de cegonhas e o numero de recem-nascidos em pequenas cidades da 
Dinamarca. Curiosamente, essa rela^ao mostrava-se forte e positiva. Entretanto, essas duas variaveis eram causadas 
pelo tamanho das cidades, variavel nao considerada no modelo, visto que em cidades maiores, onde nasciam mais 
crian^as, tambem havia uma quantidade maior de chamines, onde as cegonhas faziam seus ninhos. Nesse senti- 
do, e de fundamental importancia que o pesquisador seja bastante cuidadoso e criterioso ao inter¬ 
pretar os resultados de uma modelagem de regressao. A existencia de um modelo de regressao nao 
significa que ocorra, obrigatoriamente, rela£ao de causa e efeito entre as variaveis consideradas! 

O termo regressao e uma homenagem aos trabalhos realizados por Francis Galton e Karl Pearson na tenta- 
tiva de se estimar uma fun^ao linear que procurava investigar a r£la£ao entre a altura dos filhos e a altura dos pais, 
de modo a se estabelecer uma eventual lei universal de regressao. 

Segundo Stanton (2001), embora Pearson tivesse desenvolvido um tratamento matematico rigoroso acerca do 
que se convencionou chamar de correla^ao, foi a imagina^ao de Galton que originalmente concebeu as no^oes 
de correla^ao e de regressao. Sir Francis Galton, primo de Charles Darwin, foi bastante criticado no final do se- 
culo XIX por defender a eugenia, e a propria fama de seu primo acabou por ofuscar suas profundas contributes 
cientificas nos campos da biologia, psicologia e estatistica aplicada. Seu fascinio por genetica e hereditariedade 
forneceu a inspira^ao necessaria que levou a regressao. 

Em 1875, Galton teve a ideia de distribuir pacotes de sementes de ervilha doce a sete amigos e, embora cada 
pacote contivesse sementes com peso uniforme, havia varia^ao substancial entre os diferentes pacotes. Apos al- 
gum tempo, sementes da nova gera^ao foram colhidas das plantas que brotaram a partir das sementes originais, 
para que pudessem ser elaborados graficos que relacionavam os pesos das sementes da nova gera^ao e os pesos 
das sementes originais. Galton percebeu que os pesos medios das novas sementes geradas a partir de sementes 
originais com um peso especifico descreviam, aproximadamente, uma reta com inclina^ao positiva e inferior a 1. 
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Duas decadas mais tarde, em 1896, Pearson publicou seu primeiro rigoroso tratado sobre correla^ao e re¬ 
gressao no Philosophical Transactions of the Royal Society of London. Nesse trabalho, Pearson creditou Bravais (1846) 
por ser o primeiro a estudar as formulates matematicas iniciais da correla^ao, enfatizando que Bravais, embora 
tivesse se deparado com um metodo adequado para o calculo do coeficiente de correlafao, acabou nao con- 
seguindo provar que isso proporcionaria o melhor ajuste aos dados. Por meio do mesmo metodo, porem fazen- 
do uso de avan^ada prova estatistica com base na expansao de Taylor, Pearson acabou por chegar aos valores 
otimos da inclina^ao e do coeficiente de correla^ao de um modelo de regressao. 

Em 1911, com a morte de Galton, Karl Pearson tornou-se seu biografo e, descreve, de forma primorosa, como 
se deu o desenvolvimento do conceito da inclina^ao em um modelo de regressao. 

Com o transcorrer do tempo, os modelos de regressao passaram a ser mais estudados e aplicados em diversos 
campos do conhecimento humano e, com o desenvolvimento tecnologico e o aprimoramento computacional, 
verificou-se, principalmente a partir da segunda metade do seculo XX, o surgimento de novos e cada vez mais 
complexos tipos de modelagens de regressao. As tecnicas de regressao inserem-se dentro do que e conhecido por 
tecnicas de dependencia, em que ha a inten^ao de que sejam estimados modelos (equates) que permitam ao 
pesquisador estudar o comportamento dos dados e a rela^ao entre as variaveis e elaborar previsoes do fenomeno 
em estudo, com intervalos de confian^a. Sao, portanto, consideradas tecnicas confirmatorias. 

Optamos, com base em razoes didaticas e conceituais por abordar na Parte III as principals tecnicas pertinen- 
tes aos modelos de regressao, ficando os capitulos estruturados em tres subpartes distintas, a saber: 

PARTE 111.1: MODELOS LINEARES GENERALIZADOS 

Capitulo 12: Modelos de Regressao Simples e Multipla 

Capitulo 13: Modelos de Regressao Logistica Binaria e Multinomial 

Capitulo 14: Modelos de Regressao para Dados de Contagem: Poisson e Binomial Negativo 

PARTE 111.2: MODELOS DE REGRESSAO PARA DADOS EM PAINEL 

Capitulo 15: Modelos Longitudinals de Regressao para Dados em Painel 
Capitulo 16: Modelos Multinivel de Regressao para Dados em Painel 

PARTE 111.3: OUTROS MODELOS DE REGRESSAO 

Capitulo 17: Modelos de Regressao para Dados de Sobrevivencia: Riscos Proporcionais de Cox 
Capitulo 18: Modelos de Regressao com Multiplas Variaveis Dependentes: Correla^ao Canonica 


Cada capitulo da Parte III esta estruturado dentro de uma mesma logica de apresenta^ao. Inicialmente, sao 
introduzidos os conceitos pertinentes a cada modelo, bem como os criterios para estimagao de seus parametros, 
sempre com o uso de bases de dados que possibilitam, em um primeiro momento, a resolu^ao de exercicios pra- 
ticos, na maioria dos casos, em Excel. Na sequencia, os mesmos exercicios sao resolvidos nos pacotes estatisticos 
Stata Statistical Software® e IBM SPSS Statistics Software®. Acreditamos que essa logica facilita o estudo e o en- 
tendimento sobre a utiliza^ao correta de cada um dos modelos de regressao, a estima^ao dos respectivos para¬ 
metros e a analise dos resultados. Alem disso, a aplica^ao pratica das modelagens em Stata e SPSS tambem traz 
beneficios ao pesquisador, a medida que os resultados podem, a todo instante, ser comparados com aqueles ja es¬ 
timados ou calculados algebricamente nas se^oes iniciais de cada capitulo, alem de propiciar uma oportunidade 
de manuseio desses importantes softwares. Ao termino dos capitulos, sao propostos exercicios complementares, 
com respostas apresentadas por meio de outputs gerados em Stata, disponibilizadas no final do livro. 



MODELOS LINEARES 
GENERALIZADOS 


O estudo das distributes estatisticas nao e recente, e desde o inicio do seculo XIX, ate aproximadamente o 
inicio do seculo XX, os modelos lineares que envolvem a distribui^ao normal praticamente dominou o cenario 
da modelagem de dados. 

Entretanto, a partir do periodo entre guerras, come^am a surgir modelos para fazer frente a situates em 
que as modelagens lineares normais nao se adequavam satisfatoriamente. McCullagh e Nelder (1989),Turkman 
e Silva (2000) e Cordeiro e Demetrio (2007) citam, neste contexto, os trabalhos de Berkson (1944), Dyke e 
Patterson (1952) e Rasch (1960) sobre os modelos logisticos envolvendo as distributes de Bernoulli e binomial, 
de Birch (1963) sobre os modelos para dados de contagem envolvendo a distribui^ao Poisson, de Feigl e Zelen 
(1965), Zippin e Armitage (1966) e Glasser (1967) sobre os modelos exponenciais, e de Nelder (1966) sobre mo¬ 
delos polinomiais envolvendo a distribuigao Gama. 

Todos estes modelos acabaram por ser consolidados, do ponto de vista teorico e conceitual, por meio do se¬ 
minal trabalho de Nelder e Wedderburn (1972), em que foram definidos os Modelos Lineares Generalizados 
(<Generalized Linear Models), que representam um grupo de modelos de regressao lineares e exponenciais nao 
lineares, em que a variavel dependente possui, por exemplo, distribui^ao normal, Bernoulli, binomial, Poisson ou 
Poisson-Gama. Sao casos particulares dos Modelos Lineares Generalizados os seguintes modelos: 

• Modelos de Regressao Lineares e Modelos com Transforma^ao de Box-Cox; 

• Modelos de Regressao Logistica Binaria e Multinomial; 

• Modelos de Regressao Poisson e Binomial Negativo para Dados de Contagem; 

e a estima^ao de cada um deles deve ser elaborada respeitando-se as caracteristicas dos dados e a distribui^ao da 
variavel que representa o fenomeno que se deseja estudar, chamada de variavel dependente. 

Um Modelo Linear Generalizado e definido da seguinte forma: 

%=<* + A- x u + ft. x 2i + ... + ft. x ki (iii.i.i) 

em que 7] e conhecido por fun^ao de liga^ao canonica, a representa a constante, (J = 1, 2,..., k) sao os coefi- 
cientes de cada variavel explicativa e correspondem aos parametros a serem estimados, Xj sao as variaveis explica- 
tivas (metricas ou dummies) e os subscritos i representam cada uma das observances da amostra em analise (i = 1, 
2,..., n, em que n e o tamanho da amostra). 

O Quadro III.I.I relaciona cada caso particular dos modelos lineares generalizados com a caracteristica da 
variavel dependente, a sua distribuinao e a respectiva fun£ao de liga^ao canonica. 

Logo, para uma dada variavel dependente Y que representa o fenomeno em estudo (variavel dependente), po- 
demos especificar cada um dos modelos apresentados no Quadro III.I.I da seguinte maneira: 

Modelo de Regressao Linear: 

Y i =a + + ft ,X 2i +... + ft ,x fa . ( I„. 1.2) 

em que Ye o valor esperado da variavel dependente Y. 
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Quadro 111.1.1 Modelos lineares generalizados, caractensticas da variavel dependente e fun^oes de liga^ao canonica. 


Modelo de Regressao 
Linear Quantitativa 

Com Transforma^ao de Box-Cox Quantitativa 


Caracteristlca da Variavel Dependente Distribui^ao 

Normal 


Logistica Binaria 


Logistica Multinomial 


Poisson 


Binomial Negativo 


Qualitativa com 2 Categorias (Dummy) 


Qualitativa M(M> 2) Categorias 


Quantitativa com Valores Inteiros e Nao 
Negatives (Dados de Contagem) 

Quantitativa com Valores Inteiros e Nao 
Negativos (Dados de Contagem) 


Normal Apos aTransforma^ao 

Bernoulli 

Binomial 

Poisson 

Poisson-Gama 


Fun^ao de Liga^ao 
Canonica ( T]) 

Y 

Y x -1 


X 

r .. \ 


In 

V 

v-p) 


In 

Pm 

^~P m ) 



In (A) 

In (u) 


Modelo de Regressao com Transformafao de Box-Cox: 

= a + p v X u + P 2 .X 2i +... + P k .X k 


Y x -1 


X .‘ " ' * " (III. 1.3) 

em que Yeo valor esperado da variavel dependente Ye Aeo parametro da transformapo de Bo x-Cox que 
maximiza a aderencia a normalidade da distribui^ao da nova variavel gerada a partir da variavel Y original. 

Modelo de Regressao Logistica Binaria: 


In 


( \ 

Pi 

1 ~Vi 


= a+P v X u +f3 2 .X 2i +... + P k .X ki 


(III. 1.4) 

em que pea probabilidade de ocorrencia do evento de interesse definido por Y = 1, dado que a variavel depen¬ 
dente Y e dummy . 

Modelo de Regressao Logistica Multinomial: 


In 


f ^ 

Pi m 

1 — p. 

Y Fx '"J 


~ a m +Pl m - X li + P2m- X 2i + "- + Pkm- X ki 


(III.1.5) 

em que p m (m = 0, 1, M — 1) e a probabilidade de ocorrencia de cada uma das M categorias da variavel de¬ 
pendente y. 


Modelo de Regressao Poisson para Dados de Contagem: 

ln(A,) = a + ft . X u + p 2 . X 2i + ... + ft . X ki (III.1.6) 

em que Aeo valor esperado da quantidade de ocorrencias do fenomeno representado pela variavel dependente 
Y, que apresenta dados de contagem com distribui^ao Poisson. 

Modelo de Regressao Binomial Negativo para Dados de Contagem: 

ln(Wj) = a + . X u + fi 2 .X 2i + ... + fi k . X ki (III. 1.7) 

em que u e o valor esperado da quantidade de ocorrencias do fenomeno representado pela variavel dependente 
Y, que apresenta dados de contagem com distribui^ao Poisson-Gama. 
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Portanto, a Parte III. 1 trata dos Modelos Lineares Generalizados. Enquanto o Capitulo 12 aborda os modelos 
de regressao linear e os modelos com transforma^ao de Box-Cox, os dois capitulos seguintes abordam, respecti- 
vamente, os modelos de regressao logistica binaria e multinomial e os modelos de regressao para dados de con- 
tagem do tipo Poisson e binomial negativo, que sao modelos exponenciais nao lineares, tambem chamados de 
modelos log-lineares ou semilogarltmicos a esquerda. A Figura III. 1.1 apresenta esta logica. 



Figura 111.1.1 Modelos lineares generalizados e estruturagao dos capitulos da Parte 111.1. 


Os capitulos da Parte III. 1 estao estruturados dentro de uma mesma logica de apresenta^ao, em que sao, ini- 
cialmente, introduzidos os conceitos pertinentes a cada modelo e apresentados os criterios para estima^ao de seus 
parametros, sempre com o uso de bases de dados que possibilitam a resolu^ao de exercicios praticos em Excel. Na 
sequencia, os mesmos exercicios sao resolvidos, passo a passo, nos softwares Stata e SPSS.Ao final de cada capitulo, 
sao propostos exercicios complementares, cujas respostas estao disponibilizadas ao final do livro. 





CAPITULO 



Modelos de Regressao Simples e Multipla 


A politico serve o um momento no presente , mas umo equogao e eterno. 

Albert Einstein 


Ao final deste capitulo, voce tera concludes de: 

• Estabelecer as circunstancias a partir das quais os modelos de regressao simples e multipla podem 
ser utilizados. 

• Estimar os parametros dos modelos de regressao simples e multipla. 

• Avaliar os resultados dos testes estatisticos pertinentes aos modelos de regressao. 

• Elaborar intervalos de confianpa dos parametros do modelo para efeitos de previsao. 

• Entender os pressupostos dos modelos de regressao pelo metodo de minimos quadrados 
ordinarios. 

• Especificar modelos de regressao nao lineares e compreender a transformapao de Box-Cox. 

• Estimar modelos de regressao em Microsoft Office Excel®, Stata Statistical Software® e IBM SPSS Statistics 
Software® e interpretar seus resultados. 


12.1. INTRODUgAO 

Das tecnicas estudadas neste livro, sem duvida nenhuma, aquelas conhecidas por modelos de regressao 
simples e multipla sao as mais utilizadas em diversos campos do conhecimento. 

Imagine que um grupo de pesquisadores tenha o interesse em estudar como as taxas de retorno de um ati- 
vo financeiro comportam-se em rela^ao ao mercado, ou como o custo de uma empresa varia quando o parque 
fabril aumenta a sua capacidade produtiva ou incrementa o numero de horas trabalhadas, ou, ainda, como o 
numero de dormitorios e a area util de uma amostra de imoveis residenciais podem influenciar a forma^ao 
dos pre^os de venda. 

Note, em todos estes exemplos, que os fenomenos principal sobre os quais ha o interesse de estudo sao re- 
presentados, em cada caso, por uma variavel metrica, ou quantitativa, e, portanto, podem ser estudados por 
meio da estimai^ao de modelos de regressao, que tern por finalidade principal analisar como se comportam as 
relates entre um conjunto de variaveis explicativas, metricas ou dummies , e uma variavel dependente metrica 
(fenomeno em estudo), desde que respeitadas algumas condi^oes e atendidos alguns pressupostos, conforme 
veremos ao longo deste capitulo. 

E importante enfatizar que todo e qualquer modelo de regressao deve ser definido com base na teoria subja- 
cente e na experiencia do pesquisador, de modo que seja possivel estimar o modelo desejado, analisar os resulta¬ 
dos obtidos por meio de testes estatisticos e elaborar previsoes, 

Neste capitulo, trataremos dos modelos de regressao simples e multipla, com os seguintes objetivos: (1) intro- 
duzir os conceitos sobre regressao simples e multipla; (2) interpretar os resultados obtidos e elaborar previsoes; (3) 
discutir os pressupostos da tecnica; e (4) apresentar a aplica^ao da tecnica em Excel, Stata e SPSS. Inicialmente, se¬ 
ra elaborada a solu^ao em Excel de um exemplo concomitantemente a apresenta^ao dos conceitos e a resolu^ao 
manual deste mesmo exemplo. Somente apos a introdu^ao dos conceitos serao apresentados os procedimentos 
para a elabora^ao da tecnica de regressao no Stata e no SPSS. 
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12.2. MODELOS LINEARES DE REGRESSAO 

Inicialmente, abordaremos os modelos lineares de regressao e seus pressupostos, ficando a analise das regres- 
soes nao lineares destinada a se^ao 12.4. 

Segundo Favero et at. (2009), a tecnica de regressao linear oferece, prioritariamente, a possibilidade de que 
seja estudada a rela^ao entre uma ou mais variaveis explicativas, que se apresentam na forma linear, e uma varia- 
vel dependente quantitativa. Assim, um modelo geral de regressao linear pode ser definido da seguinte maneira: 

Y,=a + bi .X h + b 2 .X 2i +... + b k .X kj + «,. (12.1) 

em que Y representa o fenomeno em estudo (variavel dependente quantitativa), a representa o intercepto 
(constante ou coeficiente linear), bj (j = 1,2,..., k) sao os coeficientes de cada variavel (coeficientes angula- 
res), Xj sao as variaveis explicativas (metricas ou dummies) cue o termo de erro (diferen^a entre o valor real 
de Y e o valor previsto de Y por meio do modelo para cada observa^ao). Os subscritos i representam cada uma 
das observances da amostra em analise (i — 1, 2,..., n, em que n e o tamanho da amostra). 

A equa^ao apresentada por meio da expressao (12.1) representa um modelo de regressao multipla, uma 
vez que considera a inclusao de diversas variaveis explicativas para o estudo do comportamento do fenomeno 
em questao. Por outro lado, caso seja inserida apenas uma variavel X, estaremos diante de um modelo de re¬ 
gressao simples. Para efeitos didaticos, introduziremos os conceitos e apresentaremos o passo a passo da es- 
tima^ao dos parametros por meio de um modelo de regressao simples. Na sequencia, ampliaremos a discussao 
por meio da estima^ao de modelos de regressao multipla, inclusive com a considera^ao de variaveis dummy do 
lado direito da equa^ao. 

E importante enfatizar, portanto, que o modelo de regressao linear simples a ser estimado apresenta a seguinte 
expressao: 

Y i =a+^.X i (12.2) 

em que Y representa o valor previsto da variavel dependente que sera obtido por meio do modelo estimado 
para cada observanao i, e a e jS representam, respectivamente, os parametros estimados do intercepto e da 
inclinanao do modelo proposto. A Figura 12.1 apresenta, graficamente, a configuranao geral de um modelo es¬ 
timado de regressao linear simples. 

Podemos, portanto, verificar que, enquanto o parametro estimado a mostra o ponto da reta de regressao em 
que X — 0, o parametro estimado (3 representa a inclinanao da reta, ou seja, o incremento (ou decrescimo) de Y 
para cada unidade adicional de X, em media. 

Logo, a inclusao do termo de erro u na expressao (12.1), tambem conhecido por residuo, e justificada pelo 
fato de que qualquer rela^ao que seja proposta dificilmente se apresentara de maneira perfeita.Em outras palavras, 
muito provavelmente o fenomeno que se deseja estudar, representado pela variavel Y, apresentara rela^ao com 



Figura 12.1 Modelo estimado de regressao linear simples. 
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alguma outra variavel X nao incluida no modelo proposto e que, portanto, precisara ser representada pelo termo 
de erro u. Sendo assim, o termo de erro w, para cada observa^ao i, pode ser escrito como: 


u i -Y i -Y i 


(12.3) 


De acordo com Kennedy (2008), Favero et al. (2009) e Wooldridge (2012), os termos de erro ocorrem em 
fun^ao de algumas razoes que precisam ser conhecidas e consideradas pelos pesquisadores, como: 

• Existencia de variaveis agregadas e/ou nao aleatorias. 

• Incidencia de falhas quando da especifica^ao do modelo (formas funcionais nao lineares e omissao de variaveis 
explicativas relevantes). 

• Ocorrencia de erros quando do levantamento dos dados. 

Mais considera^oes sobre os termos de erro serao feitas quando do estudo dos pressupostos dos modelos de 
regressao, na se^ao 12.3. 

Discutidos estes conceitos preliminares, vamos partir para o estudo propriamente dito da estima^ao de um 
modelo de regressao linear. 


12.2.1. Estima^ao do modelo de regressao linear por minimos quadrados ordinarios 

Frequentemente vislumbramos, de forma racional ou intuitiva, a rela^ao entre comportamentos de variaveis 
que se apresentam de forma direta ou indireta. Sera que se eu frequentar mais as piscinas do meu clube aumen- 
tarei a minha massa muscular? Sera que se eu mudar de emprego terei mais tempo para ficar com meus filhos? 
Sera que se eu poupar maior parcela de meu salario poderei me aposentar mais jovem? Estas questoes oferecem 
nitidamente relates entre determinada variavel dependente, que representa o fenomeno que se deseja estudar, 
e, no caso, uma unica variavel explicativa. 

O objetivo principal da analise de regressao e, portanto, propiciar ao pesquisador condigoes de avaliar como se 
comporta uma variavel Y com base no comportamento de uma ou mais variaveis X, sem que, necessariamente, 
ocorra uma rela^ao de causa e efeito. 

Introduziremos os conceitos de regressao por meio de um exemplo que considera apenas uma variavel ex¬ 
plicativa (regressao linear simples). Imagine que, em determinado dia de aula, um professor tenha o interesse em 
saber, para uma turma de 10 estudantes de uma mesma classe, qual a relagao entre a distancia percorrida para se 
chegar a escola e o tempo de percurso. Sendo assim, o professor elaborou um questionamento com cada um dos 
seus 10 alunos e montou um banco de dados, que se encontra naTabela 12.1. 

Na verdade, o professor deseja saber a equa^ao que regula o fenomeno “tempo de percurso ate a escola” em 
fun^ao da “distancia percorrida pelos alunos”. E sabido que outras variaveis influenciam o tempo de determinado 
percurso, como o trajeto adotado, o tipo de transporte ou o horario em que o aluno partiu para a escola naquele 
dia. Entretanto, o professor tern conhecimento de que tais variaveis nao entrarao no modelo, ja que nem mesmo 
as coletou para a forma^ao da base de dados. 


Tabela 12.1 Exemplo: tempo de percurso x distancia percorrida. 


Estudante 

Tempo para chegar a escola (minutos) 

Distancia percorrida ate a escola (quilometros) 

Gabriela 

15 

8 

Dalila 

20 

6 

Gustavo 

20 

15 

Leticia 

40 

20 

Luiz Ovidio 

50 

25 

Leonor 

25 

11 

Ana 

10 

5 

Antonio 

55 

32 

Julia 

35 

28 

Mariana 

30 

20 
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Pode-se, portanto, modelar o problema da seguinte maneira: 

tempo = / ( dist) 

Assim sendo, a equa^ao, ou modelo de regressao simples, sera: 

tempo { = a + b.dist i 4- u. 

e, dessa forma, o valor esperado (estimativa) da variavel dependente, para cada observa^ao /, sera dado por: 

tempo. =a + (3.dist i 

em que a e (3 sao, respectivamente, as estimativas dos parametros a e b. 

Esta ultima equa^ao mostra que o valor esperado da variavel tempo (Y), tambem conhecido por media 
condicional, e calculado para cada observa^ao da amostra, em fun^ao do comportamento da variavel dist, sen¬ 
do que o subscrito i representa, para os dados do nosso exemplo, os proprios alunos da escola (z = 1, 2, ..., 10). 
O nosso objetivo aqui e, portanto, estudar se o comportamento da variavel dependente tempo apresenta rela^ao 
com a varia^ao da distancia, em quilometros, a que cada um dos alunos se submete para chegar a escola em de- 
terminado dia de aula. No apendice deste capitulo, faremos uma breve apresenta^ao dos modelos de regressao 
quantilica, cujo objetivo e estimar a mediana (e outros percentis) da variavel dependente, ao contrario da me¬ 
dia, tambem condicional aos valores das variaveis explicativas. 

No nosso exemplo, nao faz muito sentido discutirmos qual seria o tempo percorrido no caso de a distancia 
ate a escola ser zero (parametro a). O parametro jS, por outro lado, nos informara qual e o incremento no tempo 
para se chegar a escola ao se aumentar a distancia percorrida em um quilometro, em media. 

Vamos, desta forma, elaborar um grafico (Figura 12.2) que relaciona o tempo de percurso (Y) com a distancia 
percorrida (.X), em que cada ponto representa um dos alunos. 

Como comentado anteriormente, nao e somente a distancia percorrida que afeta o tempo para se chegar a 
escola, uma vez que este pode tambem ser afetado por outras variaveis relacionadas ao trafego, ao meio de trans¬ 
pose ou ao proprio individuo e, desta maneira, o termo de erro u devera capturar o efeito das demais variaveis 
nao incluidas no modelo. Logo, para que estimemos a equa^ao que melhor se ajusta a esta nuvem de pontos, de- 
vemos estabelecer duas condi^oes fundamentals relacionadas aos residuos. 

n 

1. A somatoria dos residuos deve ser zero: ^ u. — 0 , em que n e o tamanho da amostra. 

j=i 

Com apenas esta primeira condi^ao, podem ser encontradas diversas retas de regressao em que a somatoria 
dos residuos seja zero, como mostra a Figura 12.3. 

Nota-se, para o mesmo banco de dados, que diversas retas podem respeitar a condi^ao de que a somatoria dos 
residuos seja igual a zero. Portanto, faz-se necessario o estabelecimento de uma segunda condi^ao. 



Figura 12.2 Tempo de percurso x distancia percorrida para cada aluno. 
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Figura 12.3 Exemplos de retas de regressao em que a somatoria dos residuos e zero. 


2. A somatoria dos residuos ao quadrado e a minima possivel: = min. 

i=i ^ 

Com esta condi^ao, escolhe-se a reta que apresenta o melhor ajuste possivel a nuvem de pontos, partindo-se, 
portanto, da defini^ao de minimos quadrados, ou seja, deve-se determinar a e /3 de modo que a somatoria dos 
quadrados dos residuos seja a menor possivel (metodo de Minimos Quadrados Ordinarios - MQO, ou, em 
ingles, Ordinary Least Squares - OLS). Assim: 
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n 

^(Yi-p.X.-a) 2 = min 

1=1 


(12.4) 


A minimizacao ocorre ao se derivar a expressao (12.4) em a e p e igualar a zero as expressoes resultantes. Assim: 


a 


'Z(Y i -p.x i -a) 2 


da 


= -2 £(y < -j8.X,.-a) = 0 

i=l 


(12.5) 


a 


£(■ Y-P.Xf-a ) 2 

- i=l 


dp 


-2£x r (Y.-p.x,-a) = 0 

1=1 


( 12 . 6 ) 


Ao se distribuir e dividir a expressao (12.5) por 2*w, em que «eo tamanho da amostra, tem-se que: 


2 5>*.- 2 X« n 

+-^—+^l_=— 

2rc 2n 2w 2n 


de onde vem que: 


e, portanto: 


-Y + /?.X + a = 0 


a = Y-p.X 


(12.7) 


( 12 . 8 ) 


(12.9) 


em que Y e X representam, respectivamente, a media amostral de Y e de X. 
Ao se substituir este resultado na expressao (12.6), tem-se que: 


-2^X.(y. - /3.X,. - Y + p.x) = 0 
1=1 

que, ao se desenvolver: 

Xx..(y.-y)+/3Xx r (x-x,.) = o 

i=l i=l 

e que gera, portanto: 


( 12 . 10 ) 


( 12 . 11 ) 


X(x,.-x).(y ; -y) 

P = —— --- (12.12) 

X(*,.-x ) 2 

i=l 

Retornando ao nosso exemplo, o professor entao elaborou uma planilha de calculo a fim de obter a reta de 
regressao linear, conforme mostra aTabela 12.2. 
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Tabela 12.2 Planilha de calculo para a determina^ao de a e /3. 


Observa^ao ( i ) 

Tempo (Y { ) 

Distancia (X f ) 

Y.-Y 

X.-X 

(X.-X).(Y i -Y) 

(X,-X) 2 

1 

15 

8 

-15 

-9 

135 

81 

2 


6 

-10 

-11 

110 

121 

3 


15 

-10 

-2 

20 

4 

4 

40 

20 

10 

3 

30 

9 

5 

50 

25 

20 

8 

160 

64 

6 

25 

11 

-5 

-6 

30 

36 

7 

10 

5 

-20 

-12 

240 

144 

8 

55 

32 

25 

15 

375 

225 

9 

35 

28 

5 

11 

55 

121 

10 

30 

20 

0 

3 

0 

9 

Soma 

300 

170 



1155 

814 

Media 

30 

17 






Por meio da planilha apresentada na Tabela 12.2 podemos calcular os estimadores a e j 8, de acordo como segue: 


i° _ 

X(X,-X).(Y,-Y) 

P = ^-To - Z - 

£(X f -X) 2 
!= 1 


1155 

814 


1,4189 


a = Y-p.X = 30 -1,4189.17 = 5,8784 


E a equa^ao de regressao linear simples pode ser escrita como: 

tempo i = 5,8784 + 1, 4189.dist. 

A estima^ao dos parametros do modelo do nosso exemplo tambem pode ser efetuada por meio da ferramenta 

10 10 

Solver do Excel, respeitando-se as condi^oes de que «. = 0 e = min. Desta forma, vamos inicialmen- 

te abrir o arquivo TempoMmimosQuadrados.xls que contem os dados do nosso exemplo, alem das colunas 
referentes ao Y, ao u e ao u 2 de cada observa^ao. A Figura 12.4 apresenta este arquivo, antes da elabora^ao do 
procedimento Solver. 

Seguindo a logica proposta por Belfiore e Favero (2012), vamos entao abrir a ferramenta Solver do Excel. 
A fun^ao-objetivo esta na celula El3, que e a nossa celula de destino e que devera ser minimizada (somatoria dos 


_ 2 _ 

3 

4 

A_ 

_ 6 _ 

7 

_8_ 

A 

A 

ii 

J2_ 

13 


A 


B 


Tempo (Y)| 


Distancia (X^j 


15 

20 

_ 20 
40 
50 
25 
10 
55 
35 
30 


8 

6 

15 

20 

25 

11 

5 

32 

28 

20 


A 

!L 

A 

o 

o 

o 

o 

o 

0 

0 

A 

o 


D 

u, 

15,0000 0 

20,00000 

20,00000 

40,00000 

50,00000 

25,00000 

10,00000 

55,00000 

35,00000 

30,00000 


225,00000 

400,00000 

400,0 0000 

1600,00000 

2500,00000 

625,00000 

100,00000 

3025.60000 

1225,000 00 

900,00000 


G 


a 

P 


1_ H. j 


| Somatoria 1 300,00000 111000,000001 

Figura 12.4 Dados do arquivo TempoMmimosQuadrados.xls. 
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Parametros do Solver 


Oefinir Ofajetivo: |$£$13 _ 

Para: O Max. ® Min. O Valor de: 

Alterando Celulas Variaveis: 


□ Tornar Variaveis Irrestritas Nao Negativas 
Sdeaonar um Metodo de Sofugao: 


GRG Nao Linear 


0 


AJterar 


Exduir 


Redefinir Tudo 


Carregar/Salvar 


Opgoes 



m 

Sujeito as Restrigoes; 


$D$13 = 0 A 


Adidonar 


Metodo de Solugao 

Sdedone o mecanismo GRG Nao linear para Problemas do Solve- suaves e nao Eneares. Seleaone o 
mecanismo IP Simplex para Problemas do Solve Eneares. Sdetione o mecanismo Evolutionary para 
probiemas do Solve nao suaves. 


Ajuda 


Resolver 


Fechar 


Figura 12.5 Solver - Minimiza^ao da somatoria dos residuos ao quadrado. 


quadrados dos residuos). Alem disso, os parametros a e /3, cujos valores estao nas celulas H3 e H5, respectivamen- 
te, sao as celulas variaveis. Por fim, devemos impor que o valor da celula D13 seja igual a zero (restri^ao de que a 
soma dos residuos seja igual a zero). A janela do Solver ficara como mostra a Figura 12.5. 

Ao clicarmos em Resolver e em OK, obteremos a solugao otima do problema de minimiza^ao dos residuos 
ao quadrado. A Figura 12.6 apresenta os resultados obtidos pela modelagem. 

Logo, o intercepto a e 5,8784 e o coeficiente angular /3 e 1,4189, conforme haviamos estimado por meio da 
solu^ao analitica. De forma elementar, o tempo medio para se chegar a escola por parte dos alunos que nao per- 
correm distancia alguma, ou seja, que ja se encontram na escola, e de 5,8784 minutos, o que nao faz muito sen- 
tido do ponto de vista fisico. Em alguns casos, este tipo de situa^ao pode ocorrer com ffequencia, em que valores 
de a nao sao condizentes com a realidade. Do ponto de vista matematico, isto nao esta errado, porem o pesqui- 
sador deve sempre analisar o sentido fisico ou economico da situa^ao em estudo, bem como a teoria subjacente 
utilizada. Ao analisarmos o grafico da Figura 12.2 iremos perceber que nao ha nenhum estudante com distancia 
percorrida proxima de zero, e o intercepto reflete apenas o prolongamento, proje^ao ou extrapola^ao da reta de 
regressao ate o eixo Y. E comum, inclusive, que alguns modelos apresentem a negativo quando do estudo de 
fenomenos que nao podem oferecer valores negativos. O pesquisador deve, portanto, hear sempre atento a este 
fato, ja que um modelo de regressao pode ser bastante util para que sejam elaboradas inferences sobre o compor- 
tamento de uma variavel Y dentro dos limites de varia^ao de X, ou seja, para a elabora^ao de interpola 9 oes. Ja 
as extrapolates podem oferecer inconsistencias por eventuais mudan^as de comportamento da variavel Y fora 
dos limites de varia^ao de X na amostra em estudo. 

Dando sequencia a analise, cada quilometro adicional de distancia entre o local de partida de cada aluno e a 
escola incrementa o tempo de percurso em 1,4189 minutos, em media. Assim, um estudante que mora 10 quilo- 
metros mais longe da escola do que outro tendera a gastar, em media, pouco mais de 14 minutos (1,4189 x 10) 
a mais para chegar a escola do que seu colega que mora mais perto. A Figura 12.7 apresenta a reta de regressao 
linear simples do nosso exemplo. 
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A 

B 

C 

D 

E 

F [ G | H | 

1 

Tempo (Y) 

Distancia (X^ 

Yi 

Ui 

ui 2 


2 

15 

8 

17 

-2,22973 

4,97169 

3 

20 

6 

14 

5,60811 

31,45088 

a | 5,87838 | 

4 

20 

15 

27 

-7,16216 

51,29657 


5 

40 

20 

34 

5,74324 

32,98484 

P 1 1,41892 | 

6 

50 

25 

41 

8,64865 

74,79912 


7 

25 

11 

21 

3,51351 

12,34478 

8 

10 

5 

13 

-2,97297 

8,83857 

9 

55 

32 

51 

3,71622 

13,81026 

10 

35 

28 

46 

-10,60811 

112,53196 

11 

30 

20 

34 

-4,25676 

18,11998 

12 




13 

SomaWria | 0,00000 | 361,14865 


Figura 12.6 Obten^ao dos parametros quando da minimiza^ao da somatoria de u 2 pelo Solver. 


Concomitantemente a discussao de cada um dos conceitos e a resolu^ao do exemplo proposto de forma ana- 
litica e pelo Solver, iremos tambem apresentar a solu^ao por meio da ferramenta Regressao do Excel, passo 
a passo. Nas segoes 12.5 e 12.6 partiremos para a solugao final por meio dos softwares Stata e SPSS, respectiva- 
mente. Desta maneira, vamos agora abrir o arquivo Tempodist.xls que content os dados do nosso exemplo, ou 
seja, dados ficticios de tempo de percurso e distancia percorrida por um grupo de 10 alunos ate o local da escola. 

Ao clicarmos em Dados —» Analise de Dados, aparecera a caixa de dialogo da Figura 12.8. 

Vamos clicar em Regressao e, em seguida, em OK. A caixa de dialogo para inser^ao dos dados a serem con- 
siderados na regressao aparecera na sequencia (Figura 12.9). 

Para o nosso exemplo, a variavel tempo (min) e a dependente (Y) e a variavel dist (km) e a explicativa (.X). 
Portanto, devemos inserir seus dados nos respectivos intervalos de entrada, conforme mostra a Figura 12.10. 

Alem da inser^ao dos dados, vamos tambem marcar a op<pao Residuos, conforme mostra a Figura 12.10. Na 
sequencia, vamos clicar em OK. Uma nova planilha sera gerada, com os outputs da regressao. Iremos analisar ca¬ 
da um deles a medida que formos introduzindo os conceitos e elaborando tambem os calculos manualmente. 

Conforme podemos observar por meio da Figura 12.11,4 grupos de outputs sao gerados: estatisticas da regres¬ 
sao, tabela de analise de variancia (analysis of variance , ou ANOVA), tabela de coeficientes da regressao e tabela de 
residuos. Iremos discutir cada um deles. 

Como calculado anteriormente, podemos verificar os coeficientes da equa^ao de regressao nos outputs 
(Figura 12.12). 



Figura 12.7 Reta de regressao linear simples entre tempo e distancia percorrida. 
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Analise de dados 

Ferramentas de anafise 

Histograma 

Media move! 

Geragao de numero aleatorio 

Ordem e percents'! 

A 

§® 


Amostragem 

Teste-T: duas amostras em par para medias 

Teste-T: duas amostras presumindo variandas equivalentes 
Teste-T: duas amostras presumindo variandas diferentes 
Teste-Z: duas amostras para medias 

V 


? U 


OK 

Cancelar 


Ajuda 


Figura 12.8 Caixa de dialogo para analise de dados no Excel. 


Regressao 


? ^ 


En trada 

Intervalo Y de en trada: 

Intervalo X de en trada: 

□ Rotulos 
0 Nivel de confianga 

Opgoes de safda 
O Intervalo de safda: 

© Nova pJarulha; 

O Nova pasta de trabalho 
Resfduos 

0 Resfduos 0 Plotar resfduos 

0 Resfduos padronizados 0 Plotar ajuste de linha 

Probabilidade normal 
0 Plotagem de probabilidade normal 




0 Constants e zero 

ii 1% 



Figura 12.9 Caixa de dialogo para elabora^ao de regressao linear no Excel. 


f 

A 

B 

1 
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(Y) 
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(X,) 

2 

15 

8 

! 3 

20 

6 

4 

20 

15 
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20 

1 

! 6_ 

50 
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25 

11 

8 

' 10 
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9 

55 

32 
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35 

28 
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20 
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Intervalo Y de entrada: 
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O Intervalo de safda: 1 ill 

® Nova planUha: 1 1 
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0 Resfduos Q Plotar resfduos 

ED Resfduos padronizados ED Plotar ajuste de linha 
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G 


? S3 


OK 


Cancelar 
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Figura 12.10 Insergao dos dados para elaboragao de regressao linear no Excel. 
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i 5 

R-Quadrado 
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i 6 
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i 7 

Erro padrao 
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! 8 

Observagoes 
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ANOVA 
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Ql 

SQ 

MQ 
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Fde significagao 
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1 
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Figura 12.11 Outputs da regressao linear simples no Excel. 
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Figura 12.12 Coeficientes da equa^ao de regressao linear. 
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12.2.2. Poder explicativo do modelo de regressao: R 2 

Segundo Favero et ah (2009), para mensurarmos o poder explicativo de determinado modelo de regressao, 
ou o percentual de variabilidade da variavel Y que e explicado pelo comportamento de varia^ao das variaveis 
explicativas, precisamos entender alguns importantes conceitos. Enquanto a soma total dos quadrados (SQT) 
mostra a varia^ao em Y em torno da propria media, a soma dos quadrados da regressao (SQR) oferece a 
varia^ao de Y considerando as variaveis X utilizadas no modelo. Alem disso, a soma dos quadrados dos resi¬ 
dues (SQL/) apresenta a varia^ao de Y que nao e explicada pelo modelo elaborado. Logo, podemos definir que: 

SQT = SQR + SQU (12.13) 

sendo: 

Y~Y=(Y i -y)+(y. -y;) (12.14) 

em que Y t equivale ao valor de Y de cada observa^ao i da amostra, Yea media d e Ye Y representa o valor ajus- 
tado da reta da regressao para cada observa^ao i. Assim, temos que: 

y — Y: desvio total dos valores de cada observa^ao em rela^ao a media, 

(Y. — Y ): desvio dos valores da reta de regressao para cada observa^ao em rela^ao a media, 

(Y. — Y): desvio dos valores de cada observa^ao em rela^ao a reta de regressao, 
que resulta em: 


£(V, - Y) 2 = £(*1 - Y) 2 + £(^ - Yf (12.15) 

ou: 

£(r-n 2 =Xtf-r ) 2 +£(«,) 2 <12.16) 

t=i 1=1 1=1 

que e a propria expressao (12.13). 

A Figura 12.13 mostra graficamente esta rela^ao. 

Feitas estas considera^oes e definida a equa^ao de regressao, partiremos para o estudo do poder explicativo 
do modelo de regressao, tambem conhecido por coeficiente de ajuste R 2 . Stock e Watson (2004) definem o 
R 2 como a fra^ao da variancia da amostra de Y { explicada (ou prevista) pelas variaveis explicativas. Da mesma 



Figura 12.1 3 Desvios de Y para duas observances. 
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forma, Wooldridge (2012) considera o R 2 como a proporgao da variagao amostral da variavel dependente ex- 
plicada pelo conjunto de variaveis explicativas, podendo ser utilizado como uma medida do grau de ajuste do 
modelo proposto. 

Segundo Favero et al. (2009), a capacidade explicativa do modelo e analisada pelo R 2 da regressao, conheci- 
do tambem por coeficiente de ajuste ou de explicagao. Para um modelo de regressao simples, esta medida 
mostra quanto do comportamento da variavel Y e explicado pelo comportamento de variagao da variavel X, 
sempre lembrando que nao existe, necessariamente, uma relagao de causa e efeito entre as variaveis X e Y. Para 
um modelo de regressao multipla, esta medida mostra quanto do comportamento da variavel Y e explicado pela 
variagao conjunta das variaveis X consideradas no modelo. 

O R 2 e obtido da seguinte forma: 

R 2 _ SQR _ SQR 

SQR+SQU SQT 
ou 

r2 -—« --- 7 - 

- y ) 2 + 2 >* ) 2 

i=i i=i 

Ainda de acordo com Favero et al. (2009), o R 2 pode variar entre 0 e 1 (0% a 100%), porem e praticamente 
impossivel a obtengao de um R 2 igual a 1, uma vez que dificilmente todos os pontos situar-se-ao em cima de 
uma reta. Em outras palavras, se o R 2 for 1, nao havera residuos para cada uma das observa^oes da amostra em 
estudo, e a variabilidade da variavel Y estara sendo totalmente explicada pelo vetor de variaveis X consideradas 
no modelo de regressao. E importante enfatizar que, em diversos campos do conhecimento humano, como em 
ciencias sociais aplicadas, este fato e realmente muito pouco provavel de acontecer. 

Quanto mais dispersa for a nuvem de pontos, menos as variaveis X e Y se relacionarao, maiores serao os residuos 
e mais proximo de zero sera o R 2 . Em um caso extremo, se a variagao de X nao corresponder a nenhuma variagao 
em y, o R 2 sera zero. A Figura 12.14 apresenta, de forma ilustrativa, o comportamento do R 2 para diferentes casos. 

Voltando ao nosso exemplo em que o professor tern intengao de estudar o comportamento do tempo que os 
alunos levam para chegar a escola e se este fenomeno e influenciado pela distancia percorrida pelos estudantes, 
apresentamos uma planilha (Tabela 12.3) que nos auxiliara no calculo do R 2 . 


(12.17) 


(12.18) 




Figura 12.14 Comportamento do R 2 para diferentes regressoes lineares simples. 
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Tabela 12.3 Planilha para o calcuio do coeficiente de ajuste do modelo de regressao R 2 . 


Observa 9 ao 

(0 

Tempo 

(Yd 

Distancia 

(X.) 

Y 

1 

ft { 

(Y-Y t ) 

(Y ~ Y) 2 

(«,) 2 

1 

15 

8 

17,23 

-2,23 

163,08 

4,97 

2 

20 

6 

14,39 

5,61 

243,61 

31,45 

3 

20 

15 

27,16 

-7,16 

8,05 

51,30 

4 

40 

20 

34,26 

5,74 

18,12 

32,98 

5 

50 

25 

41,35 

8,65 

128,85 

74,80 

6 

25 

11 

21,49 

3,51 

72,48 

12,34 

7 

10 

5 

12,97 

-2,97 

289,92 

8,84 

8 

55 

32 

51,28 

3,72 

453,00 

13,81 

9 

35 

28 

45,61 

-10,61 

243,61 

112,53 

10 

30 

20 

34,26 

-4,26 

18,12 

18,12 

Soma 

300 

170 



1638,85 

361,15 

Media 

30 

17 






Obs.: Em que Y.= tempo .= 5,8784+ 1,4189. dist r 


Esta planilha permite que calculemos o R 2 do modelo de regressao linear simples do nosso exemplo. Assim: 


£(v;-y) 2 


R 2 =■ 


1638,85 


m-yf+lw 2 1638 ’ 85+36U5 


= 0,8194 


Dessa forma, podemos agora afirmar que, para a mostra estudada, 81,94% da variabilidade do tempo para se 
chegar a escola e devido a variavel referente a distancia percorrida durante o percurso elaborado por cada um dos 
alunos. E, portanto, pouco mais de 18% desta variabilidade e devido a outras variaveis nao incluidas no modelo 
e que, portanto, foram decorrentes da varia^ao dos residuos. 

Os outputs gerados no Excel tambem trazem esta informa^ao, conforme pode ser observado na Figura 12.15. 

Note que estes outputs tambem fornecem os valores de Ye dos residuos para cada observa^ao, bem como o 
valor minimo da somatoria dos residuos ao quadrado, que sao exatamente iguais aos obtidos quando da estima- 
£ao dos parametros por meio da ferramenta Solver do Excel (Figura 12.6) e tambem calculados e apresentados 
na Tabela 12.3. Por meio desses valores, temos condi^oes de calcular o R 2 . 

Segundo Stock e Watson (2004) e Favero et al. (2009), o coeficiente de ajuste R 2 nao diz aos pesquisa- 
dores se determinada variavel explicativa e estatisticamente significante e se esta variavel e a causa verdadeira da 
altera^ao de comportamento da variavel dependente. Mais do que isso, o R 2 tambem nao oferece condi^oes de 
se avaliar a existencia de um eventual vies de omissao de variaveis explicativas e se a escolha daquelas que foram 
inseridas no modelo proposto foi adequada. 

A importancia dada a dimensao do R 2 e frequentemente demasiada e, em diversas situates, os pesquisadores 
destacam a adequabilidade de seus modelos pela obten^ao de altos valores de R 2 , dando enfase inclusive a rela^ao 
de causa e efeito entre as variaveis explicativas e a variavel dependente, mesmo que isso seja bastante equivocado, 
uma vez que esta medida apenas captura a rela^ao entre as variaveis utilizadas no modelo. Wooldridge (2012) e 
ainda mais enfatico, destacando que e fundamental nao dar importancia consideravel ao valor do R 2 na avalia^ao 
de modelos de regressao. 

Segundo Favero et al. (2009), se conseguirmos, por exemplo, encontrar uma variavel que explique 40% do 
retorno das a^oes, num primeiro momento pode parecer uma capacidade explicativa baixa. Porem, se uma unica 
variavel conseguir capturar toda esta rela^ao numa situa^ao de existencia de inumeros outros fatores economicos, 
financeiros, perceptuais e sociais, o modelo podera ser bastante satisfatorio. 

A significancia estatistica geral do modelo e de seus parametros estimados nao e dada pelo R 2 , mas por meio 
de testes estatisticos apropriados que passaremos a estudar na proxima se^ao. 
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Figura 12.15 Coeficiente de ajuste da regressao. 


12.23. A significance geral do modelo e de cada um dos parametros 

Inicialmente, e de fundamental importancia que estudemos a significance estatistica geral do modelo estima- 
do. Com tal finalidade, devemos fazer uso do teste F, cujas hipoteses nula e alternativa, para um modelo geral 
de regressao, sao, respectivamente: 


H 0 :(3 1 = p 2 = ..=p k = 0 

existe pelo menos um ^ 0 


E, para um modelo de regressao simples, portanto, estas hipoteses passam a ser: 

H 0 : /3 — 0 


Este teste possibilita ao pesquisador verificar se o modelo que esta sendo estimado de fato existe, uma vez que, 
se todos os fij (j = 1,2,..., k) forem estatisticamente iguais a zero, o comportamento de altera^ao de cada uma das 
variaveis explicativas nao influenciara em absolutamente nada o comportamento de varia^ao da variavel depen- 
dente. A estatistica F apresenta a seguinte expressao: 


X ( x -^) 2 
F - "P-V 
X (»,) 2 

t=1 _ 

(n — k) 


SQR 

(fe-i) 

SQU 
(: n-k ) 


(12.19) 


em que k representa o numero de parametros do modelo estimado (inclusive o intercepto) en,o tamanho da amostra. 
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Podemos, portanto, obter a expressao da estatistica F com base na expressao do R 2 apresentada em (12.17). 
Sendo assim, temos que: 


SQR R 2 
(fe-1) (fe-1) 

SQU (1 — R 2 ) 
(n-k) (n-k) 


( 12 . 20 ) 


Logo, voltando ao nosso exemplo inicial, obtemos: 


1638,85 

p - (2~D 

361,15 

( 10 - 2 ) 


36,30 


que, para 1 grau de liberdade da regressao (k - 1 = 1) e 8 graus de liberdade para os residuos {n-k — 10-2 = 8), 
temos, por meio daTabela A do apendice do livro, que o F c — 5,32 (F critico ao nivel de significancia de 5%). 
Desta forma, como o F calculado F cat = 36,30 > F c — F 1>8>50/o = 5,32, podemos rejeitar a hipotese nula de que 
todos os parametros fy (j = 1) sejam estatisticamente iguais a zero. Logo, pelo menos uma variavel X e estatisti- 
camente significante para explicar a variabilidade de Ye teremos um modelo de regressao estatisticamente sig- 
nificante para fins de previsao. Como, neste caso, temos apenas uma unica variavel X (regressao simples), esta sera 
estatisticamente significante, ao nivel de significancia de 5%, para explicar o comportamento de varia^ao de Y. 

Os outputs oferecem, por meio da analise de variancia (ANOVA), a estatistica F, conforme estudado no 
Capitulo 7, e o seu correspondente nivel de significancia (Figura 12.16). 

Softwares como o Stata e o SPSS nao oferecem diretamente o F c para os graus de liberdade definidos e determi- 
nado nivel de significancia. Todavia, oferecem o nivel de significancia do Fed para estes graus de liberdade. Desta forma, 
em vez de analisarmos se F* > F c , devemos verificar se o nivel de significancia do F m i e menor do que 0,05 (5%) a 
fim de darmos continuidade a analise de regressao. O Excel chama este nivel de significancia de F de significagao. Assim: 

Se F de significagao < 0,05, existe pelo menos um (3j ^ 0. 
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Figura 12.16 Output da ANOVA - Teste F para avalia^ao conjunta de significancia dos parametros. 
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O nivel de significancia do Peal pode ser obtido no Excel por meio do comando Formulas —> Inserir 
Fun^ao —> DISTF, que abrira uma caixa de dialogo conforme mostra a Figura 12.17. 

Muitos modelos apresentam mais de uma variavel explicativa X (regressoes multiplas) e, como o teste F avalia 
a significancia conjunta das variaveis explicativas, acaba por nao se definir qual ou quais destas variaveis consi- 
deradas no modelo apresentam parametros estimados estatisticamente diferentes de zero, a determinado nivel de 
significancia. Desta maneira, e preciso que o pesquisador avalie se cada um dos parametros do modelo de regres¬ 
sao e estatisticamente diferente de zero, a fim de que a sua respectiva variavel X seja, de fato, incluida no modelo 
final proposto. 



DISTF 


H| - 36,303087 


« 0,000314449 

Essa fun^ao esti dtsponrvd para Gompatihidade com o Excel 2007 e anterior. 

Retoroa a dfetrfcufcao (grau de diverskiade) de probabidade F (cauda drata) para dots corrjuntos de dados. 

X e o valor no qual se avala a fungao, um numero nao negative* 


Resultado da formula = 0,000314449 


Ajyda sobre esta funcao 


Figura 12.17 Obtenq:ao do nivel de significancia de F (comando Inserir Fun^ao). 


OK 


Cancdar 


X [36,303087 
6rausjbadadel 
Graus fibetdadel 


8 


A estatistica t, tambem estudada no Capitulo 7, e importante para fornecer ao pesquisador a significancia 
estatistica de cada parametro a ser considerado no modelo de regressao, e as hipoteses do teste correspondente 
(teste t) para o intercepto e para cada fy (j = 1,2,..., k) sao, respectivamente: 

H 0 : a = 0 

H a : 

H 0 : fy = 0 

Este teste propicia ao pesquisador uma verifica^ao sobre a significancia estatistica de cada parametro estimado, 
a e f3p e sua expressao e dada por: 


a 

s.e.(a) 


t 


Pj “ 



( 12 . 21 ) 


em que s.e. corresponde ao erro-padrao (standard error) de cada parametro em analise e sera discutido adiante. 
Apos a obten^ao das estatisticas t , o pesquisador pode utilizar as respectivas tabelas de distribui^ao para obten- 
$ao dos valores criticos a um dado nivel de significancia e verificar se tais testes rejeitam ou nao a hipotese nula. 
Entretanto, como no caso do teste F, os pacotes estatisticos tambem oferecem os valores dos niveis de significan¬ 
cia dos testes t, chamados de valor-P (ou P-value), o que facilita a decisao, ja que, com 95% de nivel de confianga 
(5% de nivel de significancia), teremos: 
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Se valor-P t < 0,05 para o intercepto, a ^ 0 


e 


Se valor-P t < 0,05 para determinada variavel X, /3 ^ 0. 

Utilizando os dados do nosso exemplo inicial, temos que o erro-padrao da regressao e: 


2>,) 2 



361,15 

( 10 - 2 ) 


6,7189 


que tambem e fornecido pelos outputs do Excel (Figura 12.18). 
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Figura 12.18 Calculo do erro-padrao. 


A partir da expressao (12.21), podemos calcular, para o nosso exemplo: 


a _ 5,8784 

s.e.(a) 6,7189 .Ja~ 

P _ 1,4189 

s.e.(P) ~ 6,7189.^“ 


em que a j; e o j-esimo elemento da diagonal principal resultante do seguinte calculo matricial: 


( 




1 1 1 ... 
8 6 15 ... 


\ 

J 


1 8 
1 6 
1 15 


V. 7-1 


0,4550 -0,0209 

-0,0209 0,0012 
v ’ 7 
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que resulta, portanto, em: 


* _ 5,8784 - 5 .8784 - ^ 

s.e.(a) 6,7189.^/0,4550 4,532 


P _ 1,4189 

s.e.(p) ~ 6,7189.^0,0012 


1,4189 

0,2354 


6,0252 


que, para 8 graus de liberdade (« — fe=10“2 = 8), temos, por meio daTabela B do apendice do livro, que o 
t c = 2,306 para o nivel de significancia de 5% (probabilidade na cauda superior de 0,025 para a distribui^ao bi- 
caudal). Desta forma, como o t cal = 1,2969 < t c = t 8i2 ,5% = 2,306, nao podemos rejeitar a hipotese nula de que o 
parametro a seja estatisticamente igual a zero a este nivel de significancia para a amostra em questao. 

O mesmo, todavia, nao ocorre para o parametro /3,ja que t cal = 6,0252 > t c — t 8 2) 5o/ 0 — 2,306. Podemos, por¬ 
tanto, rejeitar a hipotese nula neste caso, ou seja, ao nivel de significancia de 5% nao podemos afirmar que este 
parametro seja estatisticamente igual a zero. 
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Figura 12.19 Calculo dos coeficientes e teste t de significancia dos parametros. 


Analogamente ao teste F, em vez de analisarmos se tcal > t c para cada parametro, podemos diretamente veri- 
ficar se o nivel de significancia ( valor-P ) de cada t cal e menor do que 0,05 (5%), a fim de mantermos o parametro 
no modelo final. O valor-P de cada tcal pode ser obtido no Excel por meio do comando Formulas — > Inserir 
Fun^ao —> DISTT, que abrira uma caixa de dialogo conforme mostra a Figura 12.20. Nesta figura, ja estao 
apresentadas as caixas de dialogo correspondentes aos parametros a e j 3. 

E importante mencionar que, para regressoes simples, a estatistica F — t 2 do parametro /3, conforme demons- 
tram Favero et al. (2009). No nosso exemplo, portanto, podemos verificar que: 

t ;=F 

t\ =(6,0252) 2 = 36,30 = F 
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Figura 12.20 Obten^ao dos nivels de significancia de t para os parametros ae /?(comando Inserir Fungao). 


Como a hipotese H t do teste F nos diz que pelo menos um parametro (3 e estatisticamente diferente de zero 
para determinado nivel de significancia, e visto que uma regressao simples apresenta apenas um unico parametro 
/3, se H 0 for rejeitada para o teste F, H 0 tambem o sera para o teste t deste parametro (3. 

Ja para o parametro a, como t M i < t c (yalor-P de t cai para o parametro a > 0,05) no nosso exemplo, poderfamos 
pensar na elabora^ao de uma nova regressao for^ando que o intercepto seja igual a zero. Isso poderia ser elabora- 
do por meio da caixa de dialogo de Regressao do Excel, com a sele^ao da op^ao Constante e zero. 

Todavia, nao iremos elaborar tal procedimento, uma vez que a nao rejei^ao da hipotese nula de que o parame¬ 
tro a seja estatisticamente igual a zero e decorrencia da pequena amostra utilizada, porem nao impede que um 
pesquisador fa$a previsoes por meio da utiliza^ao do modelo obtido. A imposi^ao de que o a seja zero podera 
gerar vieses de previsao pela gera^ao de outra reta que possivelmente nao sera a mais adequada para se elaborarem 
interpolates nos dados. A Figura 12.21 ilustra este fato. 

Desta forma, o fato de nao podermos rejeitar que o parametro a seja estatisticamente igual a zero a determi¬ 
nado nivel de significancia nao implica que, necessariamente, devemos for^ar a sua exclusao do modelo. Todavia, 
se esta for a decisao do pesquisador, e importante que se tenha ao menos a consciencia de que apenas sera gerado 
um modelo diferente daquele obtido inicialmente, com consequencias para a elabora^ao de previsoes. 

A nao rejei^ao da hipotese nula para o parametro (3 a determinado nivel de significancia, por outro lado, deve 
indicar que a correspondente variavel X nao se correlaciona com a variavel Y e, portanto, deve ser excluida do 
modelo final. 
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Figura 12.21 Retas de regressao original e com intercepto igual a zero. 


Quando apresentarmos, mais adiante neste capitulo, a analise de regressao por meio dos softwares Stata 
(se^ao 12.5) e SPSS (se^ao 12.6), sera introduzido o procedimento Stepwise, que tem a propriedade de au- 
tomaticamente excluir ou manter os parametros [3 no modelo em fun^ao dos criterios apresentados e oferecer 
o modelo final apenas com parametros /3 estatisticamente diferentes de zero para determinado mvel de signi¬ 
ficance. 


12.2.4. Constru^ao dos intervalos de confian^a dos parametros do modelo e elabora^ao 
de provisoes 

Os intervalos de confian^a para os parametros a e (j = 1,2,..., k), para o mvel de confianga de 95%, podem 
ser escritos, respectivamente, da seguinte forma: 



. ( 


5>,) 2 


1=1 


(n — k) 
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1 x 2 

+ “- 

n 


<oc<a+t a . 

L( x ~x ) 2 1 
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(n-k) 
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1 | x 2 
n t^iX-X ) 2 

V W 


yj 


= 95% (12.22) 




s.e. 


/ \2 “ r J r J 


^ P, + 


s.e. 


f n \ 

'Lx 2 

V '-= 1 ) 


2 >, 


- ^ 

L x ? 

v'=i ) 


( n V 

i=l 


= 95% 


Portanto, para o nosso exemplo, temos que: 

Parametro (X: 


5,8784-2,306. / 36 U486 |j_ + 289 ) < a < 5> 8784 + 2> 3Q6. j 3 6 L 1486 
V (8) UO 814 J V (8) 


J_ 289 3 
10 814 j 


= 95% 


P [-4,5731 < a < 16,3299] = 95% 

Como o intervalo de confian^a para o parametro a contem o zero, nao podemos rejeitar, ao mvel de con- 
fian^a de 95%, que este parametro seja estatisticamente igual a zero, conforme ja verificado quando do calculo 
da estatistica t. 
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Parametro 


1,4189 - 2,306.—- 6 ’ 7189 - < p < 1,4189 + 2,306. - 6 ’ 7189 


(3704)- 


(170) 

10 


(3704)- 


(170) 

10 


= 95 % 


P [0,8758 <P< 1,9619] = 95% 


Como o intervalo de confian^a para o parametro )3 nao contem o zero, podemos rejeitar, ao nivel de con- 
fian^a de 95%, que este parametro seja estatisticamente igual a zero, conforme tambem ja verificado quando do 
calculo da estatistica t. 

Estes intervalos tambem sao gerados nos outputs do Excel. Como o padrao do software e utilizar um nivel 
de confian^a de 95%, estes intervalos sao mostrados duas vezes, a fim de permitir que o pesquisador altere ma- 
nualmente o nivel de confian^a desejado, selecionando a op^ao Nivel de confian^a na caixa de dialogo de 
Regressao do Excel, e ainda tenha condi^oes de analisar os intervalos para o nivel de confian^a mais comumente 
utilizado (95%). Em outras palavras, os intervalos para o nivel de confian^a de 95% no Excel serao sempre apre- 
sentados, dando ao pesquisador a possibilidade de analisar paralelamente intervalos com outro nivel de confian^a. 

Iremos, desta forma, alterar a caixa de dialogo da regressao (Figura 12.22), a fim de permitir que o softwa¬ 
re tambem calcule os intervalos dos parametros ao nivel de confian^a de, por exemplo, 90%. Estes outputs estao 
apresentados na Figura 12.23. 

Percebe-se que os valores das bandas inferior e superior sao simetricos em rela^ao ao parametro medio es- 
timado e oferecem ao pesquisador uma possibilidade de serem elaboradas previsoes com determinado nivel de 
confianga. No caso do parametro (3 do nosso exemplo, como os extremos das bandas inferior e superior sao po- 
sitivos, podemos dizer que este parametro e positivo, com 95% de confian^a. Alem disso, podemos tambem dizer 
que o intervalo [0,8758; 1,9619] contem f3 com 95% de confian^a. 
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Figura 12.22 Altera^ao do nivel de confianq:a dos intervalos dos parametros para 90%. 


Diferentemente do que fizemos para o nivel de confian^a de 95%, nao iremos calcular manualmente os interva¬ 
los dos parametros para o nivel de confianga de 90%. Porem a analise dos outputs do Excel nos permite afirmar que o 
intervalo [0,9810; 1,8568] contem (3 com 90% de confian^a. Desta maneira, podemos dizer que, quanto menores os 
niveis de confian^a, mais estreitos (menor amplitude) serao os intervalos para conter determinado parametro. Por ou¬ 
tro lado, quanto maiores forem os niveis de confianga, maior amplitude terao os intervalos para conter este parametro. 
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A Figura 12.24 ilustra o que acontece quando temos uma nuvem dispersa de pontos em torno de uma reta de 
regressao. 

Podemos notar que, por mais que o parametro a seja positivo e matematicamente igual a 5,8784, nao pode- 
mos afirmar que ele seja estatisticamente diferente de zero para esta pequena amostra, uma vez que o intervalo 
de confian^a contem o intercepto igual a zero (origem). Uma amostra maior poderia resolver este problema. 

Ja para o parametro /3, podemos notar que a inclina^ao tern sido sempre positiva, com valor medio calcula- 
do matematicamente e igual a 1,4189. Podemos visualmente notar que seu intervalo de confian^a nao contem 
a inclina^ao igual a zero. 
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Figura 12.23 Intervalos com niveis de confianga de 95% e 90% para cada um dos parametros. 





V_ ) 

Figura 12.24 Intervalos de confian^a para a dispersao de pontos em torno da reta de regressao. 

Conforme ja discutido, a rejei^ao da hipotese nula para o parametro /3, a determinado nivel de significance, 
indica que a correspondente variavel X correlaciona-se com a variavel Y e, consequentemente, deve permane- 
cer no modelo final. Podemos, portanto, concluir que a decisao pela exclusao de uma variavel X em determina¬ 
do modelo de regressao pode ser realizada por meio da analise direta da estatistica t de seu respectivo parametro 
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P( se teal < t c —> valor-P > 0,05 —> nao podemos rejeitar que o parametro seja estatisticamente igual a zero) ou por 
meio da analise do intervalo de confian^a (se o mesmo contem o zero). O Quadro 12.1 apresenta os criterios de 
inclusao ou exclusao de parametros fy (j = 1 , 2,..., k) em modelos de regressao. 


Quadro 12.1 Decisao de Inclusao de parametros em modelos de regressao. 


Parametro 

Estatfstica t (para mvel 
de significancia a) 

Teste t (analise do valor-P 
para nivel de significancia a) 

Analise pelo Intervalo 
de Confian^a 

Decisao 

Pj 

teal ^ t c a /2 

valor-P > nivel de sig. a 

O intervalo de confian^a 
contem o zero 

Excluir o parametro 
do modelo 

co 

S 

A 

valor-P < nivel de sig. a 

O intervalo de confian^a 
nao contem o zero 

Manter o parametro 
no modelo 


Obs.: O mais comum em ciencias sociais aplicadas e a ado 9 ao do nivel de significancia a = 5%. 


Apos a discussao desses conceitos, o professor propos o seguinte exercicio a turma de estudantes: Qual a pre- 
visao do tempo medio de percurso (Y estimado, ou Y) de um aluno que percorre 17 quilometros 
para chegar a escola? Quais seriam os valores minimo e maximo que este tempo de percurso po- 
deria assumir, com 95% de confian^a? 

A primeira parte do exercicio pode ser resolvida pela simples substitui^ao do valor de X t ■ = 17 na equa^ao 
inicialmente obtida. Assim: 

tempo. = 5,8784 + 1,4189.^ =5,8784 + 1,4189.(17) = 29,9997 min 

A segunda parte do exercicio nos remete aos outputs da Figura 12.23,ja que os parametros a e (3 assumem in- 
tervalos de [-4,5731; 16,3299] e [0,8758; 1,9619], respectivamente, ao mvel de confian^a de 95%. Sendo assim, as 
equates que determinam os valores minimo e maximo do tempo de percurso para este nivel de confian^a sao: 

Tempo minimo: 

tempo ^ =-4,5731 + 0,8758.&£. = -4,5731 + 0,8758.(17) = 10,3155 min 

Tempo maximo: 

tempos = 16,3299 + 1,9619= 16,3299 + 1,9619.(17) = 49,6822 min 

Logo, podemos dizer que ha 95% de confian^a de que um aluno que percorre 17 quilometros para chegar a 
escola leve entre 10,3155 min e 49,6822 min, com tempo medio estimado de 29,9997 min. 

Obviamente que a amplitude destes valores nao e pequena, por conta do intervalo de confian^a do parametro 
a ser bastante amplo. Este fato poderia ser corrigido pelo incremento do tamanho da amostra ou pela inclusao 
de novas variaveis X estatisticamente significantes no modelo (que passaria a ser um modelo de regressao multi- 
pla), ja que, neste ultimo caso, aumentar-se-ia o valor do R 2 . 

Apos o professor apresentar os resultados de seu modelo aos estudantes, um curioso aluno levantou-se e perguntou: 
Mas entao, professor, existe alguma influencia do coeficiente de ajuste R 2 dos modelos de regressao so- 
bre a amplitude dos intervalos de confian^a? Se elaborassemos esta regressao linear substituindo Y por 
Y, como seriam os resultados? A equa^ao seria alterada? E o R 2 ? E os intervalos de confian^a? 

E o professor substituiu Y por Y e elaborou novamente a regressao por meio do banco de dados apresentado 
naTabela 12.4. 


Tabela 12.4 Banco de dados para a elabora^ao da nova regressao. 


Observa^ao (i) 

Tempo previsto (Y f ) 

Distancia (X f ) 

1 

17,23 

8 

2 

14,39 

6 

3 

27,16 

15 

4 

34,26 

20 

5 

41,35 

25 

6 

21,49 

11 

7 

12,97 

5 

8 

51,28 

32 

9 

45,61 

28 

10 

34,26 

20 
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Figura 12.25 Grafico de dispersao e reta de regressao linear entre tempo previsto (V) e distancia percorrida (X). 


O primeiro passo adotado pelo professor foi elaborar o novo grafico de dispersao, ja com a reta estimada de 
regressao. Este grafico esta apresentado na Figura 12.25. 

Como podemos observar, obviamente todos os pontos agora se situam sobre a reta de regressao, uma vez que 
tal procedimento forgou esta situa^ao pelo fato de o calculo de cada Y { ter utilizado a propria reta de regressao 
obtida anteriormente.Vamos aos novos outputs (Figura 12.26). 

Como ja esperavamos, o R 2 e 1. E a equagao do modelo e exatamente aquela ja calculada anteriormente, uma 
vez que e a mesma reta. 

Porem, podemos observar que os testes F e t fazem com que rejeitemos fortemente as suas respectivas hipote- 
ses nulas. Mesmo para o parametro a, que anteriormente nao podia ser considerado estatisticamente diferente de 
zero, agora apresenta seu teste t nos dizendo que podemos rejeitar, ao nivel de confian^a de 95% (ou ate maior), 
que este parametro e estatisticamente igual a zero. Isso ocorre porque anteriormente a pequena amostra utilizada 
(n = 10 observa^oes) nao nos permitia afirmar que o intercepto era diferente de zero,ja que a dispersao de pon¬ 
tos gerava um intervalo de confianga que continha o intercepto igual a zero (Figura 12.24). 

Por outro lado, quando todos os pontos estao sobre a reta, cada um dos termos do residuo passa a ser zero, o 
que faz com que o R 2 se torne l.Alem disso, a equa^ao obtida nao e mais uma reta ajustada a uma dispersao de 
pontos, mas a propria reta que passa por todos os pontos e explica completamente o comportamento da amostra. 
Assim, nao temos dispersao em torno da reta de regressao e os intervalos de confian^a passam a apresentar ampli¬ 
tude nula, como tambem podemos observar por meio da Figura 12.26. Neste caso, para qualquer nivel de con- 
fian^a, nao sao mais alterados os valores de cada intervalo dos parametros, o que nos faz afirmar que o intervalo 
[5,8784; 5,8784] contem a e o intervalo [1,4189; 1,4189] contem /3 com 100% de confian^a. Em outras palavras, 
neste caso extremo a e matematicamente igual a5,8784 e/3e matematicamente igual a 1,4189. 

Assim sendo, o R 2 e um indicador de quao amplos serao os intervalos de confian^a dos parametros. Portanto, 
modelos com R 2 mais elevados propiciarao ao pesquisador a elabora^ao de previsoes com maior acuracia, dado 
que a nuvem de pontos sera menos dispersa em torno da reta de regressao, o que reduzira a amplitude dos inter¬ 
valos de confian^a dos parametros. 

Por outro lado, modelos com baixos valores de R 2 podem prejudicar a elaboragao de previsoes em razao da 
maior amplitude dos intervalos de confian^a dos parametros, mas nao invalidam a existencia do modelo propria- 
mente dito. Conforme ja discutimos, muitos pesquisadores dao importancia demasiada ao R 2 , porem sera o teste 
F que permitira ao mesmo afirmar que existe um modelo de regressao (pelo menos uma variavel X considerada e 
estatisticamente significante para explicar Y). Assim, nao e raro encontrarmos em Administragao, em Contabilidade 
ou em Economia modelos com baixissimos valores de R 2 e com valores de F estatisticamente significantes, o que 
demonstra que o fenomeno estudado Y sofreu mudangas em seu comportamento em decorrencia de algumas va- 
riaveis X adequadamente incluidas no modelo, porem baixa sera a acuracia de previsao pela impossibilidade de se 
monitorarem todas as variaveis que efetivamente explicam a variagao daquele fenomeno Y. Dentro das mencio- 
nadas areas do conhecimento, tal fato e facilmente encontrado em trabalhos sobre Finan^as e Mercado de A^oes. 
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Figura 12.26 Outputs da regressao linear entre tempo previsto (?) e distancia percorrida (X). 


12.2.5. Estimaqao de modelos lineares de regressao multipla 

Segundo Favero et al. (2009), a regressao linear multipla apresenta a mesma logica apresentada para a regres¬ 
sao linear simples, porem agora com a inclusao de mais de uma variavel explicativa X no modelo. A utiliza^ao de 
muitas variaveis explicativas dependera da teoria subjacente e de estudos predecessores, bem como da experien¬ 
ce e do bom senso do pesquisador, a fim de que seja possivel fundamentar a decisao. 

Inicialmente, o conceito ceteris paribus (mantidas as demais condi^oes constantes) deve ser utilizado na analise 
da regressao multipla, uma vez que a interpreta^ao do parametro de cada variavel sera feita isoladamente. Assim, 
em um modelo que possui duas variaveis explicativas, X x e X 2 , os respectivos coeficientes serao analisados de for¬ 
ma a considerar todos os outros fatores constantes. 

Para exemplificarmos a analise de regressao linear multipla, utilizaremos o mesmo exemplo ate agora aborda- 
do neste capitulo. Porem, neste momento, imaginemos que o professor tenha tornado a decisao de coletar mais 
uma variavel de cada um dos alunos. Esta variavel sera referente ao numero de semaforos pelos quais cada aluno 
e obrigado a passar, e a chamaremos de variavel sent. Desta forma, o modelo teorico passara a ser: 

tempo. = a + b x .dist i + b 2 .sem { + u. 
que, analogamente ao apresentado para a regressao simples, temos que: 

tempo { = 0C + fa Jist { + fa.sem { 

em que a, fa e fa sao, respectivamente, as estimativas dos parametros a, b x e b 2 . 

O novo banco de dados encontra-se naTabela 12.5, bem como no arquivo Tempodistsem.xls. 
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Tabela 12.5 Exemplo: tempo de percurso x distancia percorrida e quantidade de semaforos. 


Estudante 

Tempo para chegar 
a escola (minutos) 

(Yd 

Distancia percorrida ate 
a escola (quilometros) 

(X u ) 

Quantidade de 
semaforos 

(X 2i ) 

Gabriela 

15 

8 

0 

Dalila 

20 

6 

1 

Gustavo 

20 

15 

0 

Leticia 

40 

20 

1 

Luiz Ovidio 

50 

25 

2 

Leonor 

25 

11 

1 

Ana 

10 

5 

0 

Antonio 

55 

32 

3 

Julia 

35 

28 

1 

Mariana 

30 

20 

1 


Iremos agora desenvolver algebricamente os procedimentos para o calculo dos parametros do modelo, assim 
como fizemos para o modelo de regressao simples. Por meio da seguinte expressao: 


y. - a + b v X u +b 2 .X 2i + u t 


podemos tambem definir que a somatoria dos quadrados dos residuos seja minima. Assim: 

f J {Y-p v X l -p 2 .X 2 t -a) 2 =rmn 


A minimiza^ao ocorre ao se derivar a expressao anterior em a, )8 t e /3 2 e igualar as expressoes resultantes a 
zero. Assim: 


.X h -P 2 .X 2i -af 


da 


= -2Z(Y i -P v X u -p 2 .X 2 ,-a) = 0 


( 12 . 23 ) 


%(Y-P v X x -P 2 .X 2i -af 


3A 


%{Y-P v X,-p 2 .X 2 -a) 2 


= - 2 i,X u .(Y-P v X u -P 2 .X 2i -a) = 0 


( 12 . 24 ) 


W 2 


= -2 ~Pv x u ~P 2 - X 2 i ~a) = 0 ( 12 . 25 ) 


que gera o seguinte sistema de tres equates e tres incognitas: 


t d Y l =nM+P 1 i i X u +P 2 ^X 2 , 

1=1 i—l i=l 

+a IX+aZ^,.-x 2 ,. 

i=l i=l t=l t=l 

IX* 2 , = a-Ix^AZ^-X, + AZx 2 2 ,. 

. i=i i=i i=i i=i 


( 12 . 26 ) 
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Dividindo-se a primeira equa^ao da expressao (12.26) por n , chegamos a: 


a = Y- p v X,-P 2 .X 2 


(12.27) 


Por meio da substituifao da expressao (12.27) nas duas ultimas equates da expressao (12.26), chegaremos ao 
seguinte sistema de duas equates e duas incognitas: 


n n 


2y,.x 1( --i=s—^— = A- 


5X- 


7 „ V 

IX 


+A>-| 


iw- 


( n 

\ 

. 

\ 

IX 


IX, 


V «=1 

J. 

V =1 - 

J 




IXIX, 

-= A 


IX'**' 


6 „ V \ 

IX,■ . 5X 


t=l 


+ /3 2 


IX 2 ,- 


r n Y 

IX, 


(12.28) 


Vamos agora calcular manualmente os parametros do modelo do nosso exemplo. Para tanto, iremos utilizar a 
planilha apresentada naTabela 12.6. 

Vamos agora substituir os valores no sistema representado pela expressao (12.28). Assim: 


^ rr 300.170 _ , 

6255-= /3J 


415- 


10 

300.10 

10 


3704- 


= A- 


231- 


(170) 2 

10 

(170).(10) 

10 


+A-I 

+A- 


231- 


(170). (10) 


10 


18- 


(1Q) 2 

10 


que resulta em: 


Resolvendo o sistema, chegamos a: 


11155 = 814./3, + 61-A 
1115 = 61-A+ 8. A 


A =0,7972 e P 2 = 8,2963 


Tabela 12.6 Planilha para o calculo dos parametros da regressao linear multipla. 


Obs. ( i) 

Y t 

x u 

x 2i 

Y,.X U 

Y,.X 2{ 

x u .x 2i 

(V,) 2 

(Xu) 2 

W 

1 

15 

8 

0 

120 

0 

0 


64 


2 

20 

6 

1 

120 

20 

6 


36 

1 

3 

20 

15 

0 

300 

0 

0 


225 

0 

4 

40 

20 

1 

800 

40 

20 


400 

1 

5 

50 

25 

2 

1250 

100 

50 


625 

4 

6 

25 

11 

1 

275 

25 

11 

625 

121 

1 

7 

10 

5 

0 

50 

0 

0 

100 

25 


8 

55 

32 

3 

1760 

165 

96 

3025 

1024 

9 

9 

35 

28 

1 

980 

35 

28 

1225 

784 

1 

10 

30 

20 

1 

600 

30 

20 

225 

400 

1 

Soma 

300 

170 

10 

6255 

415 

231 

11000 

3704 

18 

Media 

30 

17 

1 
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Assim, temos que: 

a = Y - faJC, - (3 2 .X 2 = 30 - 0,7972.(17) - 8,2963.(1) = 8,1512 


Portanto, a equa^ao do tempo estimado para se chegar a escola agora passa a ser: 

tempo i = 8,1512 + 0,7972 .dist. + 8,2963 .sent. 

Ressalta-se que as estimates destes parametros tambem poderiam ter sido obtidas por meio do procedimen- 
to Solver do Excel, como elaborado na se^ao 12.2.1. 

Os calculos do coeficiente de ajuste R 2 , das estatisticas Fete dos valores extremos dos intervalos de confian- 
ga nao serao novamente elaborados de forma manual, dado que seguem exatamente o mesmo procedimento ja 
executado nas se^oes 12.2.2,12.2.3 e 12.2.4 e podem ser realizados por meio das respectivas expressoes apresen- 
tadas ate o presente momento. A Tabela 12.7 podera auxiliar neste sentido. 

Vamos diretamente para a elabora^ao desta regressao linear multipla no Excel (arquivo Tempodistsem.xls). 
Na caixa de dialogo da regressao, devemos selecionar conjuntamente as variaveis referentes a distancia percorrida 
e a quantidade de semaforos, como mostra a Figura 12.27. 


Tabela 12.7 Planilha para o calculo das demais estatisticas. 


Observafao 

(0 

Tempo 

(Yd 

Distancia 

(X„.) 

Semaforos 

(X 2i ) 

y. 


(Y, ~ Y) 2 

w 2 

1 

15 

8 

8 

14,53 

0,47 

239,36 

0,22 

2 

20 

6 

6 

21,23 

-1,23 

76,90 

1,51 

3 

20 

15 

15 

20,11 

-0,11 

97,83 

0,01 

4 


20 

20 

32,39 

7,61 

5,72 

57,89 

5 


25 

25 

44,67 

5,33 

215,32 

28,37 

6 

25 

11 

11 

25,22 

-0,22 

22,88 

0,05 

7 

10 

5 

5 

12,14 

-2,14 

319,08 

4,57 

8 

55 

32 

32 

58,55 

-3,55 

815,14 

12,61 

9 

35 

28 

28 


-3,77 

76,90 

14,21 


30 

20 

20 

32,39 

-2,39 

5,72 

5,72 

Soma 



10 



1874,85 

125,15 


30 

17 

1 






[ 

A 

B ! C j D ! E | F f G i H ( 

i 

Tempo (min) 
(Y) 

Distancia (km) 

(X,) 


| | ^ | 

! ••••* ", x 


2 

3 

15 

8 

0 

& ' ,rada r -— | . OK . 1 


20 

6 

1 

InfcervaloYdeenfcrada: |$A$2:$A$11 \mt pzz:. ZZZ 

Interval Xdeen trade: \M\ 

Q Rotulos O Constants e zero L - J 


4 . 

5 

20 

15 

0 


40 

20 

1 

□ Nfvel de confianga (s»5 j% 


_6 J 

7 

50 

25 

2 

Opg>es de safda 

OlntervatodesaJda: 1 

— 

25 

11 

1 

(§) Nova plardlha: } j 

0 Nova pasta de jrabatho 

Resfduos 

1^1 Residues f 1 Plo tar resduos 

_8_j 

9 

| 10 

5 

0 


55 

32 

3 

Q Residues padronizados Q Plotar ajuste de linha 

Probatrifidade normal 

Q Plotagem de probabilidade normal 


10 

11 

35 

28 

1 


30 

20 

1 



Figura 12.27 Regressao linear multipla - sele^ao conjunta das variaveis explicativas. 
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A Figura 12.28 apresenta os outputs gerados. 

Nestes outputs podemos encontrar as estimativas dos parametros do nosso modelo de regressao linear multipla 
determinadas algebricamente. 

Neste momento e importante introduzirmos o conceito de R 2 ajustado. Segundo Favero et al. (2009), quando 
ha o intuito de comparar o coeficiente de ajuste (R 2 ) entre dois modelos com tamanhos de amostra diferentes ou 
com quantidades distintas de parametros, faz-se necessario o uso do R 2 ajustado, que e uma medida do R 2 da re¬ 
gressao estimada pelo metodo de minimos quadrados ordinarios ajustada pelo numero de graus de liberdade, uma 
vez que a estimativa amostral de R 2 tende a superestimar o parametro populacional. A expressao do R 2 ajustado e: 

< 12 - 29 > 

n-k 

em que n e o tamanho da amostra e k e o numero de parametros do modelo de regressao (numero de variaveis 
explicativas mais o intercepto). Quando o numero de observances e muito grande, o ajuste pelos graus de liber¬ 
dade torna-se desprezivel, porem quando ha um numero significativamente diferente de variaveis X para duas 
amostras, deve-se utilizar o R 2 ajustado para a elabora£ao de compara^des entre os modelos e op tar pelo modelo 
com maior R 2 ajustado. 

O R 2 aumenta quando uma nova variavel e adicionada ao modelo, entretanto o R 2 ajustado nem sempre 
aumentara, bem como podera diminuir ou ate hear negativo. Para este ultimo caso, Stock e Watson (2004) ex- 
plicam que o R 2 ajustado pode hear negativo quando as variaveis explicativas, tomadas em conjunto, reduzirem 
a soma dos quadrados dos residuos em um montante tao pequeno que esta redu^ao nao consiga compensar o 
fator (n-l)/(n-k). 

Para o nosso exemplo, temos que: 

10 — 1 

=1 “ 10^3 (1_0,9374) = 0,9195 

Portanto, ate o presente momento, em detrimento da regressao simples aplicada inicialmente, devemos optar 
por esta regressao multipla como sendo um melhor modelo para se estudar o comportamento do tempo de per- 
curso para se chegar ate a escola, uma vez que o R 2 ajustado e maior para este caso. 


1 

A | B 

C 

D 

E 

F 

G 

H 

1 

! 1 

RESUMO DOS RESULTADOS 








! 2 










1 3 

Estatistica de regressao 








1 4 

R multiplo 

0,96820652 








5 

R-Quadrado 

0,93742386 








6 

R-quadrado ajustado 

0,91954497 








7 

Erro padrSo 

4,22834441 








! 8 

Observaqoes 

10 








i 9 










10 

ANOVA 









11 


9l 

SQ 

MQ 

F 

Fde significa&o 




12 

Regressao 

2 

1874,847725 

937,423862 

52,4318637 

6.12958E-05 




M3 

Residuo 

7 

125,1522752 

17,8788965 






M4 

Total 

9 

2000 







1 15 










16 


Coeficientes 

Erro padrao 

Staff 

valor-P 

95% inferiores 

95% superiors 

Inferior 95,0% 

Superior 95,0% 

17 

IntersegSo 

8,15120029 

2,920086914 

2,79142386 

0,02685329 

1.246291955 

15,05610862 

1,246291955 

15,05610862 

f 18 

Variavel X1 

0,7972053 

0,226378631 

3,52155722 

0,00970731 

0,261904901 

1,332505704 

0,261904901 

1,332505704 

19 

Variavel X 2 

8,29630957 

2,283508533 

3,63314148 

0,00836288 

2,896669913 

13,69594922 

2,896669913 

13,69594922 

i 20 










f 21 










122 










123 

RESULTADOS DE RESlDUOS 








| 24 










\ 25 

Observasao 

Y previsto 

Residuos 







! 26 

1 

14,5288427 

0,471157291 







127 

2 

21,2307417 

-1,23074167 







128 

3 

20,1092798 

-0,10927983 







129 

4 

32,3916159 

7,608384092 







[ 30 

5 

44,673952 

5,326048011 







31 

6 

25,2167682 

-0,21676818 







i 32 

7 

12,1372268 

-2,1372268 







133 

8 

58,5506987 

-3,55069867 







134 

9 

38,7692583 

-3,76925833 







135 

10 

32.3916159 

-2.39161591 








Figura 12.28 Outputs da regressao linear multipla no Excel. 
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Vamos dar sequencia a analise dos demais outputs. Inicialmente, o teste F ja nos informa que pelo menos uma 
das variaveis X relaciona-se significativamente com Y. Alem disso, podemos tambem verificar, ao nivel de signi¬ 
ficance de 5%, que todos os parametros (a, /3 X e /3 2 ) sao estatisticamente diferentes de zero ( valor-P < 0,05 —> 
intervalo de confian^a nao contem o zero). Conforme ja discutido, a nao rejeigao da hipotese nula de que o in- 
tercepto seja estatisticamente igual a zero pode ser alterada ao se incluir uma variavel explicativa significante no 
modelo. Notamos tambem que houve um perceptivo aumento no valor do R 2 , o que fez tambem com que os 
intervalos de confian^a dos parametros se tornassem mais estreitos. 

Dessa forma, podemos concluir, para este caso, que o aumento de um semaforo ao longo do trajeto ate a es- 
cola incrementa o tempo medio de percurso em 8,2963 minutos, ceteris paribus. Por outro lado, um incremento 
de um quilometro na distancia a ser percorrida aumenta agora apenas 0,7972 minutos no tempo medio de per¬ 
curso, ceteris paribus. A redu^ao no valor estimado de /3 da variavel dist ocorreu porque parte do comportamento 
desta variavel esta contemplada na propria variavel sem. Em outras palavras, distancias maiores sao mais suscetiveis 
a uma quantidade maior de semaforos e, portanto, ha uma correla^ao alta entre elas. 

Segundo Kennedy (2008), Gujarati (2011) e Wooldridge (2012), a existencia de altas correlates entre varia¬ 
veis explicativas, conhecida por multicolinearidade, nao afeta a inten^ao de elabora^ao de previsoes. Gujarati 
(2011) ainda destaca que a existencia de altas correlates entre variaveis explicativas nao gera necessariamente 
estimadores ruins ou fracos e que a presen^a de multicolinearidade nao significa que o modelo possua problemas. 
Discutiremos mais sobre a multicolinearidade na se^ao 12.3.2. 

As equates que determinam os valores minimo e maximo para o tempo de percurso, ao nivel de confian^a 
de 95%, sao: 

Tempo minimo: 

tempo ^ = 1,2463 + 0,2619 .dist { + 2,8967 .sem { 

Tempo maximo: 

tempo niix = 15,0561 +1,3325. dist { +13,6959 .sem { 

12.2.6. Variaveis dummy em modelos de regressao 

De acordo com Sharma (1996) e Favero et al. (2009), a determinate* do numero de variaveis necessarias para 
a investigate* de um fenomeno e direta e simplesmente igual ao numero de variaveis utilizadas para mensurar as 
respectivas caracteristicas. Entretanto, o procedimento para determinar o numero de variaveis explicativas cujos 
dados estejam em escalas qualitativas e diferente. 

Imagine, por exemplo, que desejamos estudar como se altera o comportamento de determinado fenomeno or- 
ganizacional, como a lucratividade total, quando sao consideradas, no mesmo banco de dados, empresas provenien- 
tes de diferentes setores. Ou, em outra situa^ao, desejamos verificar se o tiquete medio de compras realizadas em 
supermercados apresenta diferen^as significativas ao compararmos consumidores provenientes de diferentes sexos e 
faixas de idade. Num terceira situa^ao, desejamos estudar como se comportam as taxas de crescimento do PIB de 
diferentes paises considerados emergentes e desenvolvidos. Em todas estas hipoteticas situates, as variaveis depen- 
dentes sao quantitativas (lucratividade total, tiquete medio ou taxa de crescimento do PIB), porem desejamos saber 
como estas se comportam em fun^ao de variaveis explicativas qualitativas (setor, sexo, faixa de idade, classifica^ao do 
pais) que serao incluidas do lado direito dos respectivos modelos de regressao a serem estimados. 

Nao podemos simplesmente atribuir valores a cada uma das categorias da variavel qualitativa, pois isso se ria 
um erro grave, denominado de pondera^ao arbitraria, uma vez que estariamos supondo que as diferengas na 
variavel dependente seriam previamente conhecidas e de magnitudes iguais as diferen^as dos valores atribuidos 
a cada uma das categorias da variavel explicativa qualitativa. Nestas situates, a fim de que este problema seja 
completamente eliminado, devemos recorrer ao artificio das variaveis dummy , ou binarias, que assumem valo¬ 
res iguais a 0 ou 1, de forma a estratificar a amostra da maneira que for definido determinado criterio, evento ou 
atributo, para, ai assim, serem incluidas no modelo em analise. Ate mesmo um determinado periodo (dia, mes ou 
ano) em que ocorre um importante evento pode ser objeto de analise. 

As variaveis dummy devem, portanto, ser utilizadas quando desejarmos estudar a rela^ao entre o comportamento 
de determinada variavel explicativa qualitativa e o fenomeno em questao, representado pela variavel dependente. 

Voltando ao nosso exemplo, imagine agora que o professor tambem tenha perguntado aos estudantes em que 
periodo do dia vieram a escola, ou seja, se cada um deles veio de manha, a fim de hear estudando na biblioteca, ou 
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se veio apenas no final da tarde para a aula noturna. A inten^ao do professor agora e saber se o tempo de percurso 
ate a escola sofre varia^ao em fun^ao da distancia percorrida, da quantidade de semaforos e tambem do periodo 
do dia em que os estudantes se deslocam para chegar ate a escola. Portanto, uma nova variavel foi acrescentada 
ao banco de dados, conforme mostra aTabela 12.8. 

Devemos, portanto, definir qual das categorias da variavel qualitativa sera a referenda (dummy — 0). Como, 
neste caso, temos somente duas categorias (manha ou tarde), apenas uma unica variavel dummy devera ser criada, 
em que a categoria de referenda assumira valor 0 e a outra categoria, valor 1. Este procedimento permitira ao 
pesquisador estudar as diferen^as que acontecem na variavel Y ao se alterar a categoria da variavel qualitativa, uma 
vez que o /3 desta dummy representara exatamente a diferen^a que ocorre no comportamento da variavel Y quan- 
do se passa da categoria de referenda da variavel qualitativa para a outra categoria, estando o comportamento da 
categoria de referenda representado pelo intercepto a. Portanto, a decisao de escolha sobre qual sera a categoria 
de referenda e do proprio pesquisador e os parametros do modelo serao obtidos com base no criterio adotado. 

Desta forma, o professor decidiu que a categoria de referenda sera o periodo da tarde, ou seja, as celulas do 
banco de dados com esta categoria assumirao valores iguais a 0. Logo, as celulas com a categoria manha assumirao 
valores iguais a 1. Isso porque o professor deseja avaliar se a ida a escola no periodo da manha traz algum benefi- 
cio ou prejuizo de tempo em rela^ao ao periodo da tarde, que e imediatamente anterior a aula. Chamaremos esta 
dummy de variavel per. Assim sendo, o banco de dados passa a ficar de acordo com o apresentado naTabela 12.9. 

Portanto, o novo modelo passa a ser: 

tempo { = a + b x .dist + b 2 .sem i + b 3 .per { + u { 


Tabela 12.8 Exemplo: tempo de percurso x distancia percorrida, quantidade de semaforos 
e periodo do dia para o trajeto ate a escola. 


Estudante 

Tempo para chegar 
a escola (minutos) 

(Y t ) 

Distancia percorrida ate 
a escola (quilometros) 

(X u ) 

Quantidade 
de semaforos 
(X 2i ) 

Periodo do dia 
(X }i ) 

Gabriela 

15 

8 

0 

Manha 

Dalila 

20 

6 

1 

Manha 

Gustavo 

20 

15 

0 

Manha 

Leticia 

40 

20 

1 

Tarde 

Luiz Ovidio 

50 

25 

2 

Tarde 

Leonor 

25 

11 

1 

Manha 

Ana 

10 

5 

0 

Manha 

Antonio 

55 

32 

3 

Tarde 

Julia 

35 

28 

1 

Manha 

Mariana 

30 

20 

1 

Manha 


Tabela 12.9 Substitui^ao das categorias da variavel qualitativa pela dummy. 


Estudante 

Tempo para chegar 
a escola (minutos) 

<*» 

Distancia percorrida ate 
a escola (quilometros) 

<X 1( ) 

Quantidade 
de semaforos 

(X 2i ) 

Periodo do dia 
dummy per 

(X 3i ) 

Gabriela 

15 

8 

0 

1 

Dalila 

20 

6 

1 

1 

Gustavo 

20 

15 

0 

1 

Leticia 

40 

20 

1 

0 

Luiz Ovidio 

50 

25 

2 

0 

Leonor 

25 

11 

1 

1 

Ana 

10 

5 

0 

1 

Antonio 

55 

32 

3 

0 

Julia 

35 

28 

1 

1 

Mariana 

30 

20 

1 

1 
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Analogamente ao apresentado para a regressao simples, temos, portanto, que: 

tempo i = a + .dist. 4- fi 2 .sem i + f3 3 .per { 

em que a, j8 t , /3 2 e j8 3 sao, respectivamente, as estimativas dos parametros a,b l ,b 2 eb 3 . 

Resolvendo novamente pelo Excel, devemos agora incluir a variavel dummy per no vetor de variaveis expli- 
cativas, conforme mostra a Figura 12.29 (arquivo Tempodistsemper.xls). 

Os outputs sao apresentados na Figura 12.30. 

Por meio destes outputs , podemos, inicialmente, verificar que o coeficiente de ajuste R 2 subiu para 0,9839, o 
que nos permite dizer que mais de 98% do comportamento de variagao do tempo para se chegar a escola e expli- 
cado pela variagao conjunta das tres variaveis X (dist, sem e per). Alem disso, este modelo e preferivel em relagao aos 
anteriormente estudados, uma vez que apresenta maior R 2 ajustado. 
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Figura 12.29 Regressao linear multipla - selegao conjunta das variaveis explicativas com dummy. 
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Figura 12.30 Outputs da regressao linear multipla com dummy no Excel. 
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Enquanto o teste F nos permite afirmar que pelo menos um parametro estimado (3 e estatisticamente dife- 
rente de zero ao nivel de significancia de 5%, os testes t de cada parametro mostram que todos eles (/3 1? /3 2 , /? 3 e 
o proprio a) sao estatisticamente diferentes de zero a este nivel de significancia, pois cada valor-P < 0,05.Assim, 
nenhuma variavel X precisa ser excluida da modelagem e a equa^ao final que estima o tempo para se chegar a 
escola apresenta-se da seguinte forma: 

tempo i = 19,6353 + 0,7084.<fe£. + 5,2573 .sent. —9,9088 .per. 

1 1 r l r tarde=0 

jmanha=l 

Desta forma, podemos afirmar, para o nosso exemplo, que o tempo medio previsto para se chegar a escola 
e de 9,9088 minutos a menos para os alunos que optarem por ir no periodo da manha em rela^ao aqueles que 
optarem por ir a tarde, ceteris paribus. Isso provavelmente deve ter acontecido por motivos associados ao transito, 
porem estudos mais aprofundados poderiam ser elaborados neste momento. Assim, o professor propos mais um 
exercicio: qual o tempo estimado para se chegar a escola por parte de um aluno que se desloca 17 
quilometros, passa por dois semaforos e vem a escola pouco antes do inicio da aula noturna, ou 
seja, no periodo da tarde? A solu^ao encontra-se a seguir: 

tempo = 19,6353 + 0,7084. (17) + 5,2573. (2) - 9,9088. (0) = 42,1934 min 

Ressalta-se que eventuais diferen^as a partir da terceira casa decimal podem ocorrem por problemas de arre- 
dondamento. Utilizamos aqui os proprios valores obtidos nos outputs do Excel. 

E qual seria o tempo estimado para outro aluno que tambem se desloca 17 quilometros, passa 
tambem por dois semaforos, porem decide ir a escola de manha? 

tempo = 19,6353 + 0,7084. (17) + 5,2573. (2) - 9,9088. (1) = 32,2846 min 

Conforme ja discutimos, a diferen^a entre estas duas situates e capturada pelo /3 3 da variavel dummy. A con- 
di^ao ceteris paribus impoe que nenhuma outra altera^ao seja considerada, exatamente como mostrado neste ul¬ 
timo exercicio. 

Imagine agora que o professor, ainda nao satisfeito, tenha realizado um ultimo questionamento aos estudantes, re- 
ferente ao estilo de dire^ao. Assim, perguntou como cada um se considera em termos de perfil ao volante: calmo, 
moderado ou agressivo. Ao obter as respostas, montou o ultimo banco de dados, apresentado naTabela 12.10. 

Para elaborar a regressao, o professor precisa transformar a variavel perfil ao volante em dummies. Para a situa^ao 
em que houver um numero de categorias maior do que 2 para determinada variavel qualitativa (por exemplo, 
estado civil, time de futebol, religiao, setor de atua^ao, entre outros exemplos), e necessario que o pesquisador 
utilize um numero maior de variaveis dummy e, de maneira geral, para uma variavel qualitativa com n categorias 
serao necessarias (n - 1) dummies , uma vez que determinada categoria devera ser escolhida como referenda e seu 
comportamento sera capturado pelo parametro estimado a. 


Tabela 12.10 Exemplo: tempo de percurso x distancia percorrida, quantidade de semaforos, 
periodo do dia para o trajeto ate a escola e perfil ao volante. 


Estudante 

Tempo para chegar 
a escola (minutos) 

(Yi) 

Distancia percorrida ate 
a escola (quilometros) 
(*u) 

Quantidade 
de semaforos 
(X 2i ) 

Periodo 
do dia 

(X 3i ) 

Perfil ao 
volante 
(X 4i ) 

Gabriela 

15 

8 

0 

manha 

calmo 

Dalila 

20 

6 

1 

manha 

moderado 

Gustavo 

20 

15 

0 

manha 

moderado 

Leticia 

40 

20 

1 

tarde 

agressivo 

Luiz Ovidio 

50 

25 

2 

tarde 

agressivo 

Leonor 

25 

11 

1 

manha 

moderado 

Ana 

10 

5 

0 

manha 

calmo 

Antonio 

55 

32 

3 

tarde 

calmo 

Julia 

35 

28 

1 

manha 

moderado 

Mariana 

30 

20 

1 

manha 

moderado 
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Conforme discutimos, infelizmente e bastante comum que encontremos na pratica procedimentos que subs- 
tituam arbitrariamente as categorias de variaveis qualitativas por valores como 1 e 2, quando houver duas ca- 
tegorias, 1, 2 e 3, quando houver tres categorias e assim sucessivamente. Isso e um erro grave, uma vez que, 
desta forma, partiriamos do pressuposto de que as diferen^as que ocorrem no comportamento da variavel Y ao 
alterarmos a categoria da variavel qualitativa seriam sempre de mesma magnitude, o que nao necessariamente e 
verdade. Em outras palavras, nao podemos presumir que a diferen^a media no tempo de percurso entre os indi- 
viduos calmos e moderados sera a mesma que entre os moderados e os agressivos. 

No nosso exemplo, portanto, a variavel perfil ao volante devera ser transformada em duas dummies (variaveis 
perfil2 e perfil3), ja que definiremos a categoria calmo como sendo a referenda (comportamento presente no in- 
tercepto). Enquanto aTabela 12.11 apresenta os criterios para a cria^ao das duas dummies , aTabela 12.12 mostra 
o banco de dados final a ser utilizado na regressao. 

E, desta forma, o modelo tera a seguinte equa^ao: 

tempo { = a + b x .dist. + b 2 .sem { + b 3 .per { + b A . perfil2 i + b 5 .perfil3 i + u { 
e, analogamente ao apresentado para os modelos anteriores, temos que: 

tempo x = a + P v dist + fi 2 .sem i + P 3 .per i + f$ A .perfil2 i + / 3 5 .perfil3 i 

em que a , jS l5 j3 2 , /3 3 /3 4 e fi 5 sao, respectivamente, as estimativas dos parametros a , b x , b 2 , b 3 , b 4 e b 5 . 

Desta forma, analisando os parametros das variaveis perfi!2 e perfil3 , temos que: 

/3 4 = diferen^a media no tempo de percurso entre um individuo considerado moderado e um individuo con- 
siderado calmo. 

/3 5 = diferen^a media no tempo de percurso entre um individuo considerado agressivo e um individuo con¬ 
siderado calmo. 

(/3 5 - j3 4 ) = diferen^a media no tempo de percurso entre um individuo considerado agressivo e um individuo 
considerado moderado. 


Tabela 12.11 Criterios para a cria^ao das duas variaveis dummy a partir da variavel qualitativa perfil ao volante. 


Categoria da variavel qualitativa perfil ao volante 

Variavel dummy perfil2 

Variavel dummy perfil3 

Calmo 

0 

0 

Moderado 

1 

0 

Agressivo 

0 

1 


Tabela 12.12 Substitui^ao das categorias das variaveis qualitativas pelas respectivas variaveis dummy. 


Estudante 

Tempo 
para chegar 
a escola 
(minutos) 
(Yd 

Distancia 
percorrida 
ate a escola 
(quilometros) 

(X u ) 

Quantidade 

de 

semaforos 

(X 2i ) 

Perfodo 
do dia 
Dummy per 
(X 3i ) 

Perfil ao 
Volante 
Dummy perfil2 
(X 4i ) 

Perfil ao 

Volante 
Dummy perfil3 
(X 5i ) 

Gabriela 

15 

8 

0 

1 


0 

Dalila 

20 

6 

1 

1 

1 


Gustavo 

20 

15 

0 

1 

1 


Leticia 

40 

20 

1 

0 

0 

i 

Luiz Ovidio 

50 

25 

2 

0 

0 

l 

Leonor 

25 

11 

1 

1 

1 


Ana 

10 

5 

0 

1 

0 

0 

Antonio 

55 

32 

3 

0 

0 


Julia 

35 

28 

1 

1 

1 


Mariana 

30 

20 

1 

1 

1 

0 
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Resolvendo novamente pelo Excel, devemos agora incluir as variaveis dummy perfil2 eperfil3 no vetor de variaveis 
explicativas. A Figura 12.31 mostra este procedimento, elaborado por meio do arquivo Tempodistsemperperfil. 
xls. Os outputs sao apresentados na Figura 12.32. 

Podemos agora notar que, embora o coeficiente de ajuste do modelo R 2 tenha sido muito elevado 
(R 2 = 0,9969), os parametros das variaveis referentes ao periodo em que o trajeto foi efetuado (X 3 ) e a categoria 
moderado da variavel perjll ao volante (X 4 ) nao se mostraram estatisticamente diferentes de zero ao nivel de signifi- 
cancia de 5%. Desta forma, tais variaveis serao retiradas da analise e o modelo sera elaborado novamente. 

Entretanto, e importante analisarmos que, na presen^a das demais variaveis, o tempo do percurso ate a escola 
passa a nao apresentar mais diferen^as se o percurso for realizado de manha ou a tarde. O mesmo vale em rela^ao 
ao perfil ao volante, ja que se percebe que nao ha diferen^as estatisticamente significantes no tempo de percur¬ 
so para estudantes com perfil moderado em rela^ao aqueles que se julgam calmos. Ressalta-se, numa regressao 
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Figura 12.31 Regressao linear multipla - selegao conjunta das variaveis explicativas com todas as dummies. 
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12 
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13 
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18 

Variavel X 1 
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0.873160522 

0,474933281 

0,873160522 


19 

Variavel X 2 

6,646796803 

1,09486738 

6,07086934 

0,00371883 

3,606957626 

9,686635981 

1 3,606957626 

9,686635981 


20 

Variavel X 3 

-5,3714136 

3,778780741 

-1,42146739 

0,22823382 

-15,86299089 

5,120163692 

-15,86299089 

5,120163692 


21 

Variavel X 4 

1,779116992 

1,441459887 

1,23424662 

0,28466664 

-2,223017254 

5,781251238 

-2,223017254 

5,781251238 
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-0,58889034 
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-0,00851566 








32 
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0,008515656 








33 
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-0,00851566 
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Figura 12.32 Outputs da regressao linear multipla com diversas dummies no Excel. 
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multipla, que tao importante quanto a analise dos parametros estatisticamente significantes e a ana- 
lise dos parametros que nao se mostraram estatisticamente diferentes de zero. 

O procedimento Stepwise , dispomvel no Stata, no SPSS e em diversos outros softwares de modelagem, apre- 
senta a propriedade de automaticamente excluir as variaveis explicativas cujos parametros nao se mostrarem 
estatisticamente diferentes de zero. Como o software Excel nao possui esse procedimento, iremos manualmen- 
te excluir as variaveis per e perfil2 e elaborar novamente a regressao. Os novos outputs estao apresentados na 
Figura 12.33. Recomenda-se, todavia, que o pesquisador sempre tome bastante cuidado com a exclusao manual 
simultanea de variaveis cujos parametros, num primeiro momento, nao se mostrarem estatisticamente diferentes 
de zero, uma vez que determinado parametro /3 pode tornar-se estatisticamente diferente de zero, mesmo que 
inicialmente nao o fosse, ao se eliminar da analise outra variavel cujo parametro jS tambem nao se mostre esta¬ 
tisticamente diferente de zero. Felizmente isso nao ocorre neste exemplo e, assim, optamos por excluir as duas 
variaveis simultaneamente. Isto sera comprovado quando elaborarmos esta regressao por meio do procedimento 
Stepwise nos softwares Stata (segao 12.5) e SPSS (segao 12.6). 

E, dessa forma, o modelo final, com todos os parametros estatisticamente diferentes de zero ao nivel de significan- 
cia de 5%, com R 2 = 0,9954 e com maior R 2 ajustado entre todos aqueles discutidos ao longo do capitulo, passa a ser: 

tempo i = 8,2919 + 0,7105.disf. + 7,8368.sem { +8, 9676. perfil3 i 

(agressivo=l 

E importante tambem verificarmos que houve uma redugao das amplitudes dos intervalos de confianga para 
cada um dos parametros. Dessa forma, podemos perguntar: 

Qual seria o tempo estimado para outro aluno que tambem se desloca 17 quilometros, passa 
tambem por dois semaforos, tambem decide ir a escola de manha, porem tern um perfil conside- 
rado agressivo ao volante? 

tempo = 8,2919 + 0,7105.(17) + 7,8368.(2) + 8,9676.(1) = 45,0109 min 

Por fim, podemos afirmar, ceteris paribus , que um estudante considerado agressivo ao volante leva, em media, 
8,9676 minutos a mais para chegar a escola em relagao a outro considerado calmo. Isso demonstra, ente outras 
coisas, que agressividade no transito realmente nao leva a nada! 
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12 

Regressao 

3 

1990,83863 

663,612878 

434,616052 
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13 
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6 
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14 
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15 










16 
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17 
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18 

Variavel XI 
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Figura 12.33 Outputs da regressao linear multipla apos a exclusao de variaveis. 
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12.3. PRESSUPOSTOS DOS MODELOS DE REGRESSAO POR M1NIMOS QUADRADOS 
ORDINARIOS (MQO OU OLS) 

Apos a apresenta^ao do modelo de regressao multipla estimado pelo metodo de mlnimos quadrados ordina- 
rios, o Quadro 12.2 traz os seus pressupostos, as consequencias de suas violates e os procedimentos para a ve- 
rifica^ao de cada um deles. 

Na sequencia, iremos apresentar e discutir cada um dos pressupostos. 


Quadro 12.2 Pressupostos do modelo de regressao. 


Pressuposto 

Viola^ao 

Verifica£ao do Pressuposto 

Os residuos apresentam distribui^ao normal. 

Valor-P dos testes t e do teste 

F nao sao validos. 

Teste de Shapiro-Wilk. 

Teste de Shapiro-Francia. 

Nao existem correla^oes elevadas entre 
as variaveis explicativas e existem mais 
. observances do que variaveis explicativas. 

Multicolinearidade. 

Matriz de Correlanao Simples. 
Determinante da matriz (X’X). 

VIF (Variance Inflation Factor) e Tolerance. 

Os residuos nao apresentam correla£ao 
com qualquer variavel X. 

Heterocedasticidade. 

Teste de Breusch-Pagan/ 
Cook-Weisberg. 

Os residuos sao aleatorios e independentes. 

Autocorrelanao dos residuos 
para modelos temporais. 

Teste de Durbin-Watson. 

Teste de Breusch-Godfrey. 


Fonte: Kennedy (2008). 


12.3.1 • Normalidade dos residuos 

A normalidade dos residuos e requerida apenas e tao somente para que sejam validados os testes de hi- 
potese dos modelos de regressao, ou seja, o pressuposto da normalidade assegura que o valor-P dos testes t e do 
teste F sejam validos. Entretanto, Wooldridge (2012) argumenta que a viola^ao deste pressuposto pode ser mi- 
nimizada quando da utiliza^ao de grandes amostras, devido as propriedades assintoticas dos estimadores obtidos 
por mlnimos quadrados ordinarios. 

E bastante comum que este pressuposto seja violado por pesquisadores quando da estima^ao de modelos de 
regressao pelo metodo de mlnimos quadrados ordinarios, porem e importante que esta hipotese possa ser atendi- 
da para a obten^ao de uma serie de resultados estatlsticos voltados para a defini^ao da melhor forma funcional do 
modelo e para a determina^ao dos intervalos de confian^a para previsao (Figura 12.34), que sao definidos, como 
ja estudamos, com base na estima^ao dos parametros do modelo. 

Ressalta-se que a aderencia a distribui^ao normal da variavel dependente, em modelos de regressao por mlni¬ 
mos quadrados ordinarios, pode fazer com que sejam gerados termos de erro tambem normais e, consequente- 
mente, estimados parametros mais adequados a determina^ao dos intervalos de confian^a para efeitos de previsao. 


r ^ 



_ j 


Figura 12.34 Distribui^ao normal dos residuos. 
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Assim sendo, recomenda-se que seja aplicado, dependendo do tamanho da amostra, o teste de Shapiro- 
Wilk ou o teste de Shapiro-Francia aos termos de erro, a fim de que seja verificado o pressuposto da norma- 
lidade dos residuos. Segundo Maroco (2014), enquanto o teste de Shapiro-Wilk e mais indicado para pequenas 
amostras (aquelas com ate 30 observa^oes), o teste de Shapiro-Francia e mais recomendado para grandes amos- 
tras, confer me discutimos no Capitulo 7. 

Na se^ao 12.5 iremos apresentar a aplica^ao destes testes, bem como seus resultados, por meio da utiliza^ao 
do Stata. 

A nao aderencia a normalidade dos termos de erro pode indicar que o modelo foi especificado incorretamente 
quanto a forma funcional e que houve a omissao de variaveis explicativas relevantes. A fim de que seja corrigido 
este problema, pode-se alterar a formula^ao matematica, bem como incluir novas variaveis explicativas no modelo. 

Na se^ao 12.3.5 apresentaremos o linktest e o teste RESET, para identifica^ao de problemas de especifica^ao 
na forma funcional e de omissao de variaveis relevantes, respectivamente, e na se^ao 12.4 iremos discorrer sobre 
as especifica^oes nao lineares, com destaque para determinadas formas funcionais. Nesta mesma se^ao, discutire- 
mos as transforma^oes de Box-Cox, que tern por intuito maximizar a aderencia a normalidade da distribute 
de determinada variavel gerada a partir de uma variavel original com distribui^ao nao normal. E muito comum 
que este procedimento seja aplicado a variavel dependente de um modelo cuja estima^ao gerou termos de erro 
nao aderentes a normalidade. 

Vale a pena comentar que e comum que se discuta sobre a necessidade de que as variaveis explicativas apre- 
sentem distributes aderentes a normalidade, o que e um grande erro. Se este fosse o caso, nao seria possivel 
utilizarmos variaveis dummy em nossos modelos. 

12.3.2. O problema da multicolinearidade 

O problema da multicolinearidade ocorre quando ha correlates muito elevadas entre variaveis explica¬ 
tivas e, em casos extremos, tais correlates podem ser perfeitas, indicando uma rela^ao linear entre as variaveis. 

Inicialmente, apresentaremos o modelo geral de regressao linear multipla na forma matricial. Partindo-se de: 


podemos escrever que: 


Y { -a + b y X u + b 2 ,X 2i + ... + b k .X ki + u { 


Y = X.b + U 


ou: 




1 


x l2 .. 



a 


Mj 



1 

X 21 

x 22 .. 

■X 2k 


K 


u 2 

Y 3 

= 

1 

X 31 

x 32 .. 

X 3k 


b 2 

+ 

«3 

K_ 

nx 1 

1 


•• 

• c . 

nxk+1 

i 

: 

: 

L_ 

k+lxl 

. U n . 


de onde se pode demonstrar que as estimativas dos parametros sao dadas pelo seguinte vetor: 


P = (X’X)' 1 (X’Y) 


Imaginemos um modelo especifico com apenas duas variaveis explicativas, como segue: 


(12.30) 

(12.31) 


(12.32) 


(12.33) 


Y i -a + byX u + b 2 .X 2j + u i 


(12.34) 


Se, por exemplo, X 2i = 4.X U , nao seria possivel separar as variates ocorridas na variavel dependente em de- 
correncia de altera^oes em X x advindas da influencia de X 2 . Portanto, segundo Vasconcellos e Alves (2000), se¬ 
ria impossivel, para esta situa^ao, que fossem estimados todos os parametros da equa^ao da expressao (12.34), ja 
que ficaria impossibilitada a inversao da matriz (X*X) e, consequentemente, o calculo do vetor de parametros 
0 = (X’X)-i (X’Y). Entretanto, poderia ser estimado o seguinte modelo: 


Y. — a + ( b x + 4 ,b 2 ) .X u + u. 
cujo parametro estimado seria uma combina^ao linear entre b x e b 2 . 


(12.35) 
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Problemas maiores, entretanto, ocorrerao quando a correla^ao entre as variaveis explicativas for muito alta, 
porem nao perfeita, conforme sera discutido mais adiante por meio da apresenta^ao de exemplos numericos e 
de aplica^oes em bancos de dados. 

7 2.3.2.1. Causas da multicolinearidade 

Uma das principals causas da multicolinearidade e a existencia de variaveis que apresentam a mesma tenden- 
cia durante alguns periodos. Imaginemos, por exemplo, que se deseja estudar se a rentabilidade, ao longo do tem¬ 
po, de um determinado fundo de renda fixa atrelado a Indices de prenos varia em fun^ao de indices de infla^ao 
com defasagem de tres meses. Ou seja, ha o intuito de se criar um modelo em que a rentabilidade do fundo em 
um periodo t seja fun^ao de determinados indices de infla^ao em t — 3. Para tanto, o pesquisador inclui, como 
variaveis explicativas, os indices IPCA e IGP-m (ambos em t — 3). Como tais indices apresentam correla^ao ao 
longo do tempo, muito provavelmente o modelo gerado apresentara multicolinearidade. 

Tal fenomeno nao e restrito a bases de dados em que ha a evolu^ao temporal. Imaginemos outra situa^ao em 
que um pesquisador deseja estudar se o faturamento de uma amostra de lojas de supermercados em um mes e 
fun^ao da area de vendas (em m 2 ) e do numero de funcionarios alocados em cada uma das lojas. Como e sabido 
que, para este tipo de opera^ao varejista, ha certa correla^ao entre area de vendas e numero de funcionarios, pro¬ 
blemas de multicolinearidade nesta cross-section tambem poderao acontecer. 

Outra causa bastante comum da multicolinearidade e a utiliza^ao de bancos de dados com um numero insu- 
ficiente de observances. 


12.3.2.2. Consequencias da multicolinearidade 

Segundo Vasconcellos e Alves (2000), a existencia de multicolinearidade tern impacto direto no calculo da 
matriz (X 5 X). Para tratar deste problema, apresentaremos, por meio de exemplos numericos, os calculos das ma- 
trizes (X’X) e (X’X)- 1 em tres casos distintos, nos quais existe correlafao entre as duas variaveis explicativas: 
(a) correlagao perfeita; (b) correla^ao muito alta, porem nao perfeita; (c) correlafao baixa. 


(a) Correlaqao perfeita 

Imagine uma matriz X com apenas duas variaveis explicativas e duas observa 9 oes: 


Logo: 


X = 


X’X = 


1 4 

2 8 


5 20 
20 80 


e, portanto, det(X’X) = 0, ou seja, (X’X) -1 nao pode ser calculada. 


(b) Correlapao muito alta, porem nao perfeita 

Imagine agora que a matriz X apresente os seguintes valores: 


X = 


1 4 

2 7,9 


Logo: 


5 19,8 

19,8 78,41 


de onde vem que det(X’X) — 0,01 e, portanto: 


(X’X)’ 1 


7.841 -1.980 
-1.980 500 
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Segundo Vasconcellos e Alves (2000), como a matriz de variancia e covariancia dos parametros do modelo 
e dada por (T^X’X) -1 , e como os elementos da diagonal principal desta matriz aparecem no denominador das 
estatisticas t , conforme estudado na se^ao 12.2.3 (expressao 12.21), estas tendem, neste caso, a apresentar valo- 
res subestimados pela existencia de valores elevados na matriz (X’X) -1 , o que pode eventualmente fazer com 
que um pesquisador considere nao significantes os efeitos de algumas das variaveis explicativas. Porem, como os 
calculos da estatistica F e do R 2 nao sao afetados por este fenomeno, e comum que se encontrem modelos em 
que os coeficientes das variaveis explicativas nao sejam estatisticamente significantes, com o teste F rejeitando a 
hipotese nula ao mesmo nivel de significance, ou seja, indicando que pelo menos um parametro seja estatistica¬ 
mente diferente de zero. Em muitos casos, esta inconsistence ainda vem acompanhada de um alto valor de R 2 . 


(c) Correlafao baixa 

Imagine, por fim, que a matriz X passe a apresentar os seguintes valores: 


Logo: 



1 4 

2 3 


X’X = 


5 

10 


10 

25 


de onde vem que det(X’X) = 25 e, portanto: 


(X’X) -1 


1 -0,4 

-0,4 0,2 


Podemos agora verificar que, dada a baixa correla^ao entre X 1 e X 2 , os valores presentes na matriz (X’X)" 1 
sao baixos, o que gerara pouca influence para a redu^ao da estatistica t quando do seu calculo. 

Na se^ao 12.3.2.3, a seguir, serao elaborados modelos com o uso de bancos de dados que propiciam o estudo 
destas tres situates. 


12.3.23. Aplicaqao de exemplos com multicolinearidade no Excel 

Voltando ao exemplo utilizado ao longo do capitulo, imaginemos agora que o professor deseje avaliar a in¬ 
fluence da distance percorrida (dist) e da quantidade de cruzamentos (cruz) ao longo do trajeto sobre o tempo 
para se chegar a escola (tempo). Para tanto, fez uma pesquisa com alunos de tres turmas diferentes (A, B e C), de 
modo que seja obtido, para cada turma, o seguinte modelo: 

tempo { = a + b x .dist { + b 2 .cruz i + u. 

Os tres casos apresentados a seguir referem-se, respectivamente, aos dados obtidos em cada uma das tres tur¬ 
mas de alunos. 


(a) Turma A: O caso da correla£ao perfeita 

A turma A tern alunos que moram apenas no centro da cidade, ou seja, coincidentemente existe uma rela^ao 
perfeita entre a distance percorrida e a quantidade de cruzamentos, uma vez que os trajetos possuem as mesmas 
caracteristicas e sao sempre realizados em zona urbana. O banco de dados coletado na turma A esta apresentado 
naTabela 12.13. 

Por meio do arquivo Tempodistcruz_turma_A.xls, podemos elaborar a regressao multipla, conforme 
mostra a Figura 12.35. Os outputs sao apresentados na Figura 12.36. 

Conforme podemos verificar, a estima^ao do parametro da variavel X 1 (dist) nao foi calculada visto que a cor- 
rela^ao entre dist e cruz e perfeita e, portanto, fica impossivel a inversao da matriz (X’X) que, neste caso, e dada por: 


X’X = 


3.704 7.408 
7.408 14.816 


, de onde vem que det(X’X) — 0. 


De qualquer modo, como sabemos que cruz { = 2 .dist., poderemos estimar o seguinte modelo: 

tempo { = a + (b x + 2 h 2 ) .dist + u { 


em que o parametro estimado sera uma combina^ao linear entre b x e b 2 - 
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Tafoefia 12.13 Turma A e o exemplo de correlagao perfeita entre as variaveis explicativas 
(distancia percorrida e quantidade de cruzamentos). 


Estudante 

Tempo para chegar a 
escola (minutos) 

m 

Distancia percorrida ate 
a escola (quilometros) 

(X u ) 

Quantidade de 
cruzamentos 
(X 2i ) 

Gabriela 

15 

8 

16 

Dalila 

20 

6 

12 

Gustavo 

20 

15 

30 

Leticia 

40 

20 

40 

Luiz Ovidio 

50 

25 

50 

Leonor 

25 

11 

22 

Ana 

10 

5 

10 

Antonio 

55 

32 

64 

Julia 

35 

28 

56 

Mariana 

30 

20 

40 



A 

B 

c 

i i 

Tempo (min) 
(V) 

DMirada Jta) 

PW 

Ctaiarotidiade de 
Cmuzffiinriantos 

c m 

2 

15 

8 

16 

3 

20 

6 

12 

. 4 

20 

15 

30 

5 

40 

20 

40 

j.S 

! 50 

25 

50 

j. 1 i 

.25 

11 

22 

, s j 

10 

5 

| 10 

l±\ 


32 

64 

10 

35 

28 

| 56 

; 111 

30 

20 

40 

12 | 
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FSgiura 12.35 Regressao linear multipla para a turma A. 
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6 

R-quadrado ajustado 

0,671853885 



y 





7 

Erro padrSo 

6,718897311 




A estimagao 

do pararrietfb 
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alculada. 

. 8 . 

Observagoes 

10 








9 



X 







10 

ANOVA 


/ 







11 


Qf 

/SQ 

MQ 

F 

F de significagao 




. 12 

Regressao 

2 

1/38,851351 

819,4256757 

36,303087 

0,000201618 




13 

Resfduo 

8 

/61,1486486 

45,14358108 






14 

Total 

id] 

f 2000 







15 


/ 








16 


Coeficient^s 

Erro padr§o 

Staff 

vaior-P 

95% inferiores 

95% superiores 

Inferior 95,0% 

Superior 95,0% 

17 

Intersegao 

5,878378^78 

4,532327565 

1,296988864 

0,230788477 

-4,573187721 

16,32994448 

-4,573187721 

16,32994448 

18 

Variavel X 1 

i 0 

0 

65535 

#NUM! 

0 

6 

6 

0 

19 

Variavel X 2 

0,709459459 

0,117748614 

6.025204312 

0,000314449 

0,437930668 

0,980988251 

0,437930668 

0,980988251 


Fogwira 12.36 Outputs da regressao linear multipla para a turma A. 
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(b) Turma B: O caso da correla^ao muito alta, porem nao perfeita 

A turma B, muito parecida com a turma A em termos de caracteristicas dos deslocamentos, possui apenas um es- 
tudante (Americo) que, por se deslocar por uma via expressa, passa por um cruzamento a menos, proporcionalmen- 
te, em rela^ao aos demais, conforme pode ser observado naTabela 12.14. Desta forma, a correlagao entre dist e cruz 
passa a nao ser mais perfeita, mesmo que ainda seja extremamente elevada (no caso deste exemplo, igual a 0,9998). 

Por meio do arquivo Tempodistcruz_turma_B.xls, podemos elaborar a mesma regressao multipla, cujos 
outputs sao apresentados na Figura 12.37. 

Neste caso, conforme ja discutimos, e possivel verificar que ha uma inconsistency entre o resultado do teste 
F e os resultados dos testes t, ja que estes ultimos apresentam valores subestimados de suas estatisticas pelo fato de 
haver valores mais elevados na matriz (X’X) -1 , ou seja, pelo fato de det(X’X) ser mais baixo. Neste caso, temos: 


X’X 


3.704 7.388 
7.388 14.737 


, de onde vem que det(X’X) = 3.304, que aparentemente e um valor alto, porem e 


consideravelmente mais baixo do que o calculado para o caso da turma C a seguir. Alem disso, neste caso, temos que: 


(X’X)" 1 


4,460 -2,236 
-2,236 1,121 


Em decorrencia disso, os outputs (Figura 12.37) podem fazer com que um pesquisador, erroneamente, afirme 
que nenhum parametro do modelo em questao seja estatisticamente significante, mesmo que o teste F tenha in- 
dicado que pelo menos um deles seja estatisticamente diferente de zero, ao nivel de significance de, por exemplo, 
5%, e que o proprio R 2 tenha se mostrado relativamente alto (R 2 = 0,8379). Este fenomeno representa o maior 
erro que se pode cometer em modelos com alta multicolinearidade entre variaveis explicativas. 


Tabela 12.14 Turma B e o exemplo de correla^ao muito alta entre as variaveis explicativas 
(distancia percorrida e quantidade de cruzamentos). 


Estudante 

Tempo para chegar 
a escola (minutos) 

m 

Distancia percorrida ate 
a escola (quilometros) 

(Xu) 

Quantidade de 
cruzamentos 
(X 2i ) 

Giulia 

15 

8 

16 

Luiz Felipe 

20 

6 

12 

Antonieta 

20 

15 

30 

Americo 

40 

20 

39 

Ferruccio 

50 

25 

50 

Filomena 

25 

11 

22 

Camilo 

10 

5 

10 

Guilherme 

55 

32 

64 

Maria Paula 

35 

28 

56 

Mateus 

30 

20 

40 
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Figura 12.37 Outputs da regressao linear multipla para a turma B. 
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(c) Turma C: O caso da correlaqao mais baixa 

A turma C e mais heterogenea em termos de caracteristicas dos deslocamentos, ja que e formada por estu- 
dantes que tambem vem de outros municipios e, portanto, utilizam estradas com uma quantidade proporcional- 
mente menor de cruzamentos ao longo do trajeto. A correlaqao entre dist e cruz, neste caso, passa a ser de 0,6505. 
ATabela 12.15 apresenta o banco de dados coletado na turma C. 

O arquivo Tempodistcruz_turma_C.xls traz os dados no formato do Excel, pelo qual podemos elaborar 
a mesma regressao multipla, cujos outputs sao apresentados na Figura 12.38. 

Podemos agora verificar que, dada uma correlaqao mais baixa entre dist e cruz , os valores presentes na matriz 
(X’X) -1 sao bem mais baixos do que aqueles calculados para a turma B, o que gerara pouca influencia para a 
reduqao das estatisticas t quando dos seus calculos e, consequentemente, nao ocorrerao inconsistencias entre os 
resultados dos testes t e do^ teste F. Neste caso, temos: 

3.704 4.959 


X’X = 


4.959 7.965 


, de onde vem que det(X’X) — 4.910.679, que e um valor bem mais alto do que 


aquele calculado para o caso anterior. Alem disso, temos que: 


(X’X)' 1 


0,0016 -0,0010 

-0,0010 0,0008 


Tabela 12.1 5 Turma C e o exemplo de correla^ao mais baixa entre as variaveis explicativas 
(distancia percorrida e quantidade de cruzamentos). 


Estudante 

Tempo para chegar 
a escola (minutos) 

(Yd 

Distancia percorrida ate 
a escola (quilometros) 

(X u ) 

Quantidade de 
cruzamentos 
(X 2i ) 

Juliana 

15 

8 

12 

Raquel 
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Figura 12.38 Outputs da regressao linear multipla para a turma C. 
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12.3.2.4. Diagnostics de multicolinearidade 

O primeiro e mais simples metodo para diagnostico de multicolinearidade refere-se a identifica^ao de altas 
correlates entre variaveis explicativas por meio da analise da matriz de correla^ao simples. Se, por um lado, es- 
te metodo apresenta uma grande facilidade de aplica^ao, por outro nao consegue identificar eventuais relates 
existentes entre mais de duas variaveis simultaneamente. 

O segundo metodo, menos utilizado, diz respeito ao estudo do determinate da matriz (X’X). Conforme 
estudamos nas duas se^oes anteriores, valores de det(X’X) muito baixos podem indicar a presen^a de altas cor¬ 
relates entre as variaveis explicativas, o que prejudica a analise das estatisticas t. 

Por fim, mas nao menos importante, e o diagnostico de multicolinearidade elaborado por meio da estima^ao 
de regressoes auxiliares. Segundo Vasconcellos e Alves (2000), a partir da expressao (12.30) podem ser estimadas 
regressoes, de modo que: 


X u 

— a + b 1 .X 2i 

+ b 2 .X 3i +. 

-+K 

-vX u 

+ w. 

X 2l 

= a + b v X u 

+ b 2 .X 3i + . 

■•+K- 

A 

+ U i 

X u - 

= a + b y X Xi - 

'rb 2 .X 2i + .. 

■ +b k -1 

,X*-i 

i + U i 


e, para cada uma delas, havera um R fe 2 . Se um ou mais destes R fe 2 auxiliares for elevado, poderemos considerar a 
existencia de multicolinearidade. Desta forma, podemos definir, a partir dos mesmos, as estatisticas Tolerance e 
VTF (Variance Inflation Factor), como segue: 

Tolerance = 1 — R^ (12.37) 

VIF = --- (12.38) 

Tolerance 

Assim sendo, se a Tolerance for muito baixa e, consequentemente, a estatistica VIF alta, teremos um indicio de 
que ha problemas de multicolinearidade. Em outras palavras, se a Tolerance for baixa para determinada regressao 
auxiliar, significa que a variavel explicativa que faz o papel de dependente nesta regressao auxiliar compartilha 
um percentual elevado de variancia com as demais variaveis explicativas. 

Enquanto muitos autores afirmam que problemas de multicolinearidade surgem com valores de VIF acima 
de 10, podemos perceber que um valor de VIF igual a 4 resulta em uma Tolerance de 0,25, ou seja, em um R fe 2 
de 0,75 para aquela determinada regressao auxiliar, o que representa um percentual relativamente elevado de va¬ 
riancia compartilhada entre determinada variavel explicativa e as demais. 

12.3.2.5. Possfveis solugoes para o problema da multicolinearidade 

A multicolinearidade representa um dos problemas mais dificeis de serem tratados em modelagem de dados. 
Enquanto alguns apenas aplicam o procedimento Stepwise, para que sejam eliminadas as variaveis explicativas que 
estao correlacionadas, o que de fato pode corrigir a multicolinearidade, tal solu^ao pode criar um problema de 
especifica^ao pela omissao de variavel relevante, conforme discutiremos na se^ao 12.3.5. 

A cria^ao de fatores ortogonais a partir das variaveis explicativas, por meio da aplica^ao da tecnica de analise 
fatorial, pode corrigir problemas de multicolinearidade. Para efeitos de previsao, entretanto, e sabido que os va¬ 
lores correspondentes aos fatores para novas observa^oes nao serao conhecidos, o que gera um problema para o 
pesquisador. Alem disso, a cria^ao de fatores sempre acarreta perda de uma parcela de variancia das variaveis ex¬ 
plicativas originais. 

A boa noticia, conforme tambem discutemVasconcellos e Alves (2000), e que a existencia de multicolineari¬ 
dade nao afeta a inten^ao de elabora^ao de previsoes, desde que as mesmas condi^oes que geraram os resultados 
se mantenham para a previsao. Desta forma, as previsoes incorporarao o mesmo padrao de rela^ao entre as vari¬ 
aveis explicativas, o que nao representa problema algum. Gujarati (2011) ainda destaca que a existencia de altas 
correlates entre variaveis explicativas nao gera necessariamente estimadores ruins ou fracos e que a presen^a de 
multicolinearidade nao significa que o modelo possui problemas. Em outras palavras, alguns autores argumentam 
que uma solu^ao para a multicolinearidade e identifica-la, reconhece-la e nao fazer nada. 
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12.3.3. O problema da heterocedasticidade 

Alem dos pressupostos discutidos anteriormente, a distribui^ao de probabilidades de cada termo aleatorio de 
Y { — a + b x .X u + b 2 .X 2i +... + b k .X ki +u { (i = 1, 2,..., n) e tal que todas as distributes devem apresentar a mesma 
variancia, ou seja, devem ser homocedasticas. Assim: 

Var(u { ) = E(u.) 2 -G 2 U (12.39) 

A Figura 12.39 propicia, para um modelo de regressao linear simples, uma visualiza^ao do problema da hete¬ 
rocedasticidade, ou seja, a nao constancia da variancia dos residuos ao longo da variavel explicativa. Em outras 
palavras, deve estar ocorrendo uma correla^ao entre os termos do erro e a variavel X, percebida pela forma^ao 
de um “cone” que se estreita a medida que X aumenta. Obviamente, o problema de heterocedasticidade tambem 
ocorreria se este “cone” se apresentasse de forma espelhada, ou seja, se o estreitamento (redu^ao dos valores dos 
termos de erro) ocorresse com a redu^ao dos valores da variavel X. 



Figura 12.39 0 problema da heterocedasticidade. 

72.3.3.7. Causas da heterocedasticidade 

Segundo Vasconcellos e Alves (2000) e Greene (2012), erros de especifica^ao quanto a forma funcional ou 
quanto a omissao de variavel relevante podem gerar termos de erro heterocedasticos no modelo. 

Este fenomeno tambem pode ser gerado por modelos de aprendizagem e erro. Neste caso, imaginemos que 
um grupo de analistas deseje elaborar previsoes a respeito do pre^o futuro da soja no mercado de derivativos. 
Os mesmos analistas fazem suas previsoes em t, f+l,f + 2ef+3 meses, a fim de que seja avaliada a curva de 
aprendizagem de cada um deles sobre o fenomeno em questao (precifica^ao correta da commodity ). O grafico da 
Figura 12.40 e elaborado apos o experimento e, por meio de sua analise, podemos verificar que os analistas pas- 
sam a prever de forma mais apurada o pre^o da soja com o passar do tempo, muito provavelmente por conta do 
processo de aprendizagem a que sao submetidos. 

Analogamente, o incremento da renda discricionaria (parcela da renda total de um individuo que nao esta com- 
prometida, ou seja, que permite que o individuo possa exercer algum grau de discri^ao quanto ao seu destino) tam¬ 
bem pode fazer com que sejam gerados problemas de heterocedasticidade em modelos de regressao. Imaginemos 
uma pesquisa realizada com estudantes formados em um curso de Direito. De tempos em tempos, digamos de 5 em 
5 anos, os mesmos estudantes sao questionados sobre a sua renda discricionaria naquele exato momento. O grafico 
da Figura 12.41 e, entao, elaborado e, por meio dele, verificamos que a renda discricionaria dos estudantes passa a 
apresentar diferen^as maiores ao longo do tempo, se comparadas aquelas dos tempos de recem-formados. 

Ainda com base no mesmo exemplo da renda discricionaria, imaginemos agora que outra amostra tenha a 
mesma configurafao, porem com apenas um individuo apresentando valor discrepante de sua renda discricio¬ 
naria em t + 15, conforme mostra a Figura 12.42. Este outlier aumentara ainda mais, neste caso, a intensidade da 
heterocedasticidade no modelo proposto. 
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Figura 12.40 Modelos de aprendizagem e erro como causa da heterocedasticidade. 



Figura 12.41 Incremento da renda discricionaria como causa da heterocedasticidade. 



Figura 12.42 Existencia de outlier como causa da heterocedasticidade. 


12.3.3.2. Consequencias da heterocedasticidade 

Todas as causas aqui discutidas (erros de especifica^ao do modelo, modelos de aprendizagem e erro, aumento 
da renda discricionaria e presenga de outliers) podem levar a heterocedasticidade, que gera estimadores dos para- 
metros nao viesados, porem ineficientes, e erros-padrao dos parametros viesados, o que acarreta problemas com 
os testes de hipotese das estatisticas t. 
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A fim de que seja detectada a presen^a de heterocedasticidade, apresentaremos, na sequencia, o teste de 
Breusch-Pagan/Cook-Weisberg. Alguns procedimentos para eventual corre^ao da heterocedasticidade tambem 
serao discutidos, como a estima^ao pelo metodo de minimos quadrados ponderados e o metodo de Huber- 
White para erros-padrao robustos. 


12.3.3.3. Diagnostico de heterocedasticidade: teste de Breusch-Pagan/Cook-Weisberg 

O teste de Breusch-Pagan/Cook-Weisberg, que se baseia no multiplicador de Lagrange (. LM ), apre- 
senta, como hipotese nula, o fato de a variancia dos termos de erro ser constante (erros homocedasticos) e, como 
hipotese alternativa, o fato de a variancia dos termos de erro nao ser constante, ou seja, os termos de erro serem 
uma fun^ao de uma ou mais variaveis explicativas (erros heterocedasticos). E importante mencionar que este tes¬ 
te e indicado para os casos em que a suposi^ao de normalidade dos residuos for verificada. 

Para obter o resultado do teste, podemos, inicialmente, elaborar um determinado modelo de regressao, a partir 
do qual vamos obter o vetor de residuos (u t ) e o vetor de valores previstos da variavel dependente (YJ). Na sequ¬ 
encia, podemos padronizar os residuos ao quadrado, obrigando que a media desta nova variavel seja igual a 1. Ou 
seja, cada residuo padronizado sera obtido por meio da seguinte expressao: 


2 

u, 

(n 



/ n 

V=1 J 



(12.40) 


em que n't o numero de observances. 

Em seguida, podemos elaborar a regressao up t — a + bY { +£., a partir da qual se calcula a soma dos quadrados 
da regressao ( SQR ) que, dividindo-se por dois, chega-se a estatistica # 2 bp/cw- 

Assim sendo, o teste de Breusch-Pagan/Cook-Weisberg apresenta, como hipotese nula, o fato de a estatistica 
calculada ^ 2 bp/cw possuir distribuinao qui-quadrado com 1 grau de liberdade, ou seja, que X 2 b?/cw < X 2 i g.i. P ara 
determinado nivel de significance. Em outras palavras, se os termos do erro forem homocedasticos, os residuos 
ao quadrado nao aumentam ou diminuem com o aumento de Y. 

Na se^ao 12.5, iremos apresentar a aplica^ao deste teste, bem como seus resultados, por meio da utiliza^ao do 
Stata. 


12.3.3.4. Metodo de minimos quadrados ponderados: uma possfvel soluqao 

Conforme mencionamos, falhas na especificanao do modelo podem gerar termos de erro heterocedasticos 
e, como sabemos e discutiremos na se^ao 12.4, as relates entre variaveis sao complexas e nem sempre seguem 
uma linearidade. E nao havendo determinada teoria subjacente que indique a rela^ao entre duas ou mais varia¬ 
veis, cabe ao pesquisador, por meio, por exemplo, da elabora^ao de graficos dos residuos em fun^ao da variavel 
dependente ou das variaveis explicativas, tentar inferir sobre um eventual ajuste nao linear a ser aplicado ao mo¬ 
delo em estudo, como o logaritmico, o quadratico ou o inverso. 

Neste sentido, o metodo de minimos quadrados ponderados, que e um caso particular do metodo de 
minimos quadrados generalizados, pode ser aplicado quando se diagnostica que a variancia dos termos de erro 
depende da variavel explicativa, ou seja, quando a expressao (12.39) sofre alguma altera^ao, de modo que: 

Variu^cl.X, 

ou 

Var( Ul ) = 0 2 u .X? 

OU 

Var{u,) = ol4x i 


ou qualquer outra rela^ao entre Var(u t ) e X { . 
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Assim sendo, o modelo podera ser transformado de maneira que os termos de erro passem a apresentar va¬ 
riancia constante. Imagine, por exemplo, que a relagao entre u { e X- seja linear, ou seja, que |w.| = c.X { e, desta 
forma, JB(w.) 2 = £(r.X t ) = c 2 .Xf, em que c e uma constante. Isto posto, podemos propor um novo modelo, da 
seguinte forma: 


21 

x. 


<j , b.X. v u, 
X.. X,. X.. 


(12.41) 


A partir da expressao (12.41), temos que os novos termos de erro apresentam a seguinte variancia: 


f N 2 
u^_ 

Xv 


= = -^-.c 2 .Xf = r 2 , que e constante. 

X. X- 


Portanto, o modelo proposto por meio da expressao (12.41) pode ser estimado por minimos quadrados or- 
dinarios. 


12.3.3.5. Metodo de Huber-White para erros-padrao robustos 

Para termos uma sucinta ideia do procedimento proposto em seminal artigo escrito por White (1980), que 
segue o trabalho de Huber (1967), vamos novamente utilizar a expressao: 


Y. = a + b.X { 4- u. , com Var (w.) = E («. ) 2 = (J 2 


(12.42) 


e 


Var(b) = 




(12.43) 


Porem, como <7 W 2 nao e diretamente observavel, White (1980) propoe que se adote u { , em vez de <J M 2 , para a 
estima^ao de Var(b\ da seguinte maneira: 


Hzr(fc) = 



(12.44) 


White (1980) demonstra que a Var{b) apresentada por meio da expressao (12.44) e um estimador consistente 
da variancia apresentada por meio da expressao (12.43), ou seja, a medida que o tamanho da amostra aumenta 
indefinidamente, a segunda converge para a primeira. 

Este procedimento pode ser generalizado para o modelo de regressao multipla: 

Y i =a + b 1 .X u + b 2 .X 2i +... ■+ b k .X ki + (12.45) 

de onde vem que: 


Var(bj) = 


'* 2*2 

4 W ji' U i 




(12.46) 


em que j = 1,2,..., k, u { sao os residuos obtidos por meio da elabora^ao da regressao original e w jt representam 
os residuos obtidos por meio da elabora^ao de cada regressao auxiliar do regressor X / contra todos os demais re- 
gressores. 

Dada a facilidade computacional de se aplicar este metodo, atualmente e muito frequente que os pesquisa- 
dores utilizem os erros-padrao robustos a heterocedasticidade em seus trabalhos academicos, a tal ponto de nem 
mais se preocuparem em verificar a existencia da propria heterocedasticidade. Entretanto, esta decisao, que acaba 
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por tentar eliminar uma incerteza correspondente a fonte da heterocedasticidade e que eventualmente gera uma 
eventual confian^a em resultados mais robustos, nao representa uma verdadeira solu^ao na grande maioria das 
vezes. E importante salientar que este procedimento, que gera estimativas dos erros-padrao dos parametros dife- 
rentes daquelas que seriam obtidas com a aplica^ao direta do metodo de minimos quadrados ordinarios (afetando 
as estatisticas t), nao altera as estimativas dos parametros do modelo de regressao propriamente ditos. 

Desta forma, a ado^ao deste procedimento pode apenas fazer com que o pesquisador finja que o problema 
nao existe, ao inves de tentar identificar as razoes por meio das quais ele surge. 

12.3*4. O problema da autocorrela^ao dos resfduos 

A hipotese de aleatoriedade e independence dos termos de erro apenas faz sentido de ser estudada em mode- 
los em que ha a evolu 9 ao temporal dos dados. Em outras palavras, se estivermos trabalhando com uma base de 
dados em cross-section, este pressuposto nao se justifica, ja que a mudan^a da sequencia em que as observa^oes es- 
tao dispostas numa cross-section nao altera em nada o banco de dados, porem modifica a correla^ao entre os termos 
de erro de uma observa^ao para a seguinte. Por outro lado, como devemos obrigatoriamente respeitar a sequencia 
das observagoes em bancos de dados com evolu^ao temporal (t, t + 1, £ + 2 etc.), a correla^ao (p) dos termos de er¬ 
ro entre observa^oes passa a fazer sentido. Dessa forma, podemos propor o seguinte modelo, agora com subscritos 
t em vez de i: 


Y, - a + b v X u +b 2 .X 2t +... + b k .X kl +£' 


(12.47) 


em que: 


£, = p-£ t - X + u t , com — 1 < p < 1 


(12.48) 


Ou seja, os termos de erro £ t nao sao independentes e, de acordo com a expressao (12.48), apresentam auto- 
correla 9 ao de primeira ordem, ou seja, cada valor de £ depende do valor de £ do periodo anterior e de um 
termo aleatorio e independente u, com distribui^ao normal, media zero e variancia constante. Neste caso, por- 
tanto, temos que: 


P'^t-2 U t -1 

£ t-2 =P- e t-3+ U t-2 

: (12.49) 

£ t- P = P £ t-p -1 + U t- P 


A Figura 12.43 propicia, para um modelo de regressao linear simples, uma visualiza^ao do problema da auto- 
correla^ao dos residuos, ou seja, nitidamente os termos de erro nao apresentam aleatoriedade e correlacionam-se 
temporalmente. 





V___/ 


Figura 12.43 O problema da autocorrela^ao dos residuos. 
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12.3.4.1. Causas da autocorrelaqao dos residuos 

Segundo Vasconcellos e Alves (2000) e Greene (2012), erros de especifica^ao quanto a forma funcional ou 
quanto a omissao de variavel explicativa relevante podem gerar termos de erro autocorrelacionados. Alem disso, 
a autocorrela^ao dos residuos tambem pode ser causada por fenomenos sazonais e, consequentemente, pela des- 
sazonalizagao destas series. 

Imaginemos que um pesquisador deseje investigar a rela^ao existente entre consumo de sorvete (em tonela- 
das) em determinada cidade e o crescimento da popula^ao ao longo dos trimestres. Para tanto, coletou dados por 
2 anos (8 trimestres) e elaborou o grafico apresentado na Figura 12.44. Por meio deste grafico, podemos perce- 
ber que o crescimento da popula^ao da cidade ao longo do tempo faz com que o consumo de sorvete aumente. 
Entre tanto, por conta da sazonalidade que existe,ja que o consumo de sorvete e maior em periodos de primavera 
e verao e menor em periodos de outono e inverno, a forma funcional linear (modelo dessazonalizado) faz com 
que sejam gerados termos de erro autocorrelacionados ao longo do tempo. 



Figura 12.44 Sazonalidade como causa da autocorrela^ao dos residuos. 


12.3.4.2. Consequencias da autocorrelagao dos residuos 

Todas as causas aqui apresentadas (erros de especifica^ao do modelo quanto a forma funcional, omissao de 
variavel explicativa relevante e dessazonaliza^ao de series) podem levar a autocorrelagao dos residuos, que gera 
estimadores dos parametros nao viesados, porem ineficientes, e erros-padrao dos parametros subestimados, o que 
acarreta problemas com os testes de hipotese das estatisticas t. 

A fim de que seja detectada a presen^a de autocorrela^ao dos residuos, apresentaremos, a seguir, os testes de 
Durbin-Watson e de Breusch-Godfrey. 


12.3.4.3. Diagnostico de autocorrelaqao dos residuos: teste de Durbin-Watson 

O teste de Durbin-Watson e o mais utilizado por pesquisadores que tern a inten^ao de verificar a existencia 
de autocorrela^ao dos residuos, embora sua aplica^ao so seja valida para se testar a existencia de autocorrela^ao 
de primeira ordem. A estatistica do teste e dada por: 


DW ~ 


X( e ,- £ «-i ) 2 

t—2 _ 

n 

X*, ! 


(12.50) 


em que € t representa os termos de erro estimados para o modelo da expressao (12.47). Como sabemos que a 
correla^ao entre £ t e £ tA e dada por: 

n 

1 

P = —n - (12.51) 



t=2 
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para valores de n suficientemente grandes, podemos deduzir que: 


DW = 2.(1-p) 


(12.52) 


e e por este motivo que muitos pesquisadores afirmam que um teste de Durbin-Watson com estatistica DW 
aproximadamente igual a 2 resulta em inexistencia de autocorrela^ao dos residuos (p = 0). Embora isso seja ver- 
dade para processos autorregressivos de primeira ordem, uma tabela com valores criticos d v e d L da distribui^ao 
de DW pode oferecer ao pesquisador uma possibilidade mais concreta sobre a real existencia de autocorrela^ao, 
ja que oferece os valores de d v e d L em fun^ao do numero de observances da amostra, do numero de parametros 
do modelo e do nivel de significance estatistica que deseja o pesquisador. Enquanto a Tabela C do apendice do 
livro traz estes valores criticos, a Figura 12.45 apresenta a distribuinao de DW e os criterios para existencia ou 
nao de autocorrelanao. 

Embora bastante utilizado, o teste de Durbin-Watson, conforme ja discutido, so e valido para verificanao de 
existencia de autocorrelanao de primeira ordem dos termos de erro. Alem disso, nao e apropriado para modelos 
em que a variavel dependente defasada e incluida como uma das variaveis explicativas. E e neste sentido que o 
teste de Breusch-Godfrey passa a ser uma alternativa bastante interessante. 



V- - - j 


Figura 12.45 Distribui<;ao de DWe criterios para existencia de autocorrelanao. 


123.4.4. Diagnostico de autocorrelaqao dos residuos: teste de Breusch-Godfrey 

O teste de Breusch-Godfrey, originado por dois importantes artigos publicados individualmente em 1978 
(Breusch, 1978; Godfrey, 1978) permite que se teste a existencia de autocorrelanao dos residuos em um modelo 
que apresenta a variavel dependente defasada como uma de suas variaveis explicativas. Alem disso, tambem per¬ 
mite que o pesquisador verifique se a auto cor relanao e de ordem 1, de ordem 2 ou de ordem p , sendo, portanto, 
mais geral do que o teste de Durbin-Watson. 

Dado novamente o mesmo modelo de regressao linear multipla: 

y t =a + b v X Xt + b 2 .X 2t +...+b k .X kt +e t (12.53) 

podemos definir que os termos de erro sofrem um processo autorregressivo de ordem p, de modo que: 

£ t — p v £ t _ x + p 2 £ t -2 E. • • + P p .£ t _ p + u t (12.54) 

em que u possui distribui^ao normal, media zero e variancia constante. 

Assim, por meio da estimanao por minimos quadrados ordinarios do modelo representado pela expressao 
(12.53), podemos obter £ t e elaborar a seguinte regressao: 

e t =d v X u +d 2 .X 2t + ... + d k ,X k + p, + p 2 i,_ 2 + • • • + P p £,- P + v < (12.55) 


Breusch e Godfrey provam que a estatistica do teste e dada por: 


BG = (n-p).R 2 ~ xl 


(12.56) 


em que n e o tamanho da amostra, pea dimensao do processo autorregressivo e R 2 e o coeficiente de ajuste 
obtido por meio da estimanao do modelo da expressao (12.55). Desta forma, se (w — p). JR. 2 for maior do que o 
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valor critico da distribui^ao qui-quadrado com p graus de liberdade, rejeitamos a hipotese nula de inexistencia 
de autocorrelagao dos residuos, ou seja, pelo menos um parametro p na expressao (12.55) e estatisticamente 
diferente de zero. 

A principal desvantagem do teste de Breusch-Godfrey e nao permitir que se defma, a priori , o numero de 
defasagens p na expressao (12.54), fazendo com que o pesquisador tenha que testar diversas possibilidades de p. 

12.3.4.5. Posstveis soluqdes para o problem a da autocorrela^ao dos residuos 

A autocorrelagao dos residuos pode ser tratada pela alteragao da forma funcional do modelo ou pela inclusao de 
variavel relevante que havia sido omitida. Os testes para identifica^ao destes problemas de especifica^ao encontram- 
se na se$ao 12.3.5. 

Entretanto, caso se chegue a conclusao de que a autocorrela^ao e considerada “pura”, ou seja, nao advinda de 
problemas de especificagao pela inadequada forma funcional ou pela omissao de variavel relevante, pode-se tratar 
o problema por meio do metodo de minimos quadrados generalizados, que tern por objetivo encontrar a melhor 
transformagao do modelo original de modo a gerar termos de erro nao autocorrelacionados. 

Imaginemos novamente o nosso modelo original, porem com apenas uma variavel explicativa. Assim: 

Y t =a + b.X t +£ t (12.57) 

sendo: 

£ t = p.£,_i + u t (12.58) 

em que u possui distribuigao normal, media zero e variancia constante. 

Como o nosso intuito e modificar o modelo da expressao (12.57), de modo que os termos de erro passem a 
ser u, e nao mais £, podemos multiplicar os termos desta expressao por p e defasa-los em 1 periodo. Assim, temos: 

p.Y,_i = p.a + p.b.X l _ l +p.£ l _ 1 (12.59) 

Ao subtrairmos a expressao (12.59) da expressao (12.57), passamos a ter: 

y, -P-Y,-, =a.(l-p)+b.(X l - p.X,_ t ) + u t (12.60) 

que passa a ser um modelo com termos de erro nao correlacionados. Para que seja feita esta transformagao, e ne- 
cessario, todavia, que o pesquisador conhega p. 

Na segao 12.5, que traz a aplicagao dos modelos de regressao multipla por meio do software Stata, serao apre- 
sentados os procedimentos para verifica^ao de cada um dos pressupostos, com os respectivos testes e resultados. 

123.5. Detec^ao de problemas de especifica^ao: o linktest e o teste RESET 

Como podemos perceber, grande parte das violagoes dos pressupostos em regressao e gerada por falhas de es~ 
pecificagao do modelo, ou seja, por problemas na definigao da forma funcional e por omissao de variaveis expli- 
cativas relevantes. Existem muitos metodos de detecgao de problemas de especificagao, porem os mais utilizados 
referem-se ao linktest e ao teste RESET. 

O linktest nada mais e do que um procedimento que cria duas novas variaveis a partir da elaboragao de um 
modelo de regressao, que nada mais sao do que as variaveis Y e Y 2 . Assim, a partir da estima^ao de um modelo 
original: 

Y=a + b t .X u + b 2 .X 2i +... + b k .X kt +u i (12.61) 

podemos estimar o seguinte modelo: 

Y { =a + d v Y i +d 2 .(Y i } 2 + v< (12.62) 

de onde se espera que Y seja estatisticamente significante e Y 2 nao seja, uma vez que, se o modelo original for es- 
pecificado corretamente em termos de forma funcional, o quadrado dos valores previstos da variavel dependente 
nao devera apresentar um poder explicativo sobre a variavel dependente original. O linktest aplicado diretamente 
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no Stata apresenta exatamente esta configura^ao, porem um pesquisador que tiver interesse em avaliar a signifi- 
cancia estatistica da variavel Y com outros expoentes podera faze-lo manualmente. 

Ja o teste RESET (Regression Specification Error Test) avalia a existencia de erros de especifica^ao do mo- 
delo pela omissao de variaveis relevantes. Similarmente ao linktest, o teste RESET tambem cria novas variaveis 
com base nos valores de Y gerados a partir da estima^ao do modelo original representado pela expressao (12.61). 
Assim, podemos estimar o seguinte modelo: 

Y i = a + b i .X li + b 2 .X 2i + ...+b k .X ki +d l \Y i )Yd 2 \Y i )Yd 3 \Y i )Y^ (12.63) 

A partir da estima^ao do modelo representado pela expressao (12.63), podemos calcular a estatistica F da se¬ 
guinte forma: 




Aizi_ 

(n-k — 4) 


(12.64) 


em que n e o numero de observances e k e o numero de variaveis explicativas do modelo original. 

Desta forma, se a estatistica F calculada para (3, n — k — 4) graus de liberdade for menor do que o correspon- 
dente F critico (H 0 do teste RJBSEF ), podemos afirmar que o modelo original nao apresenta omissao de varia¬ 
veis explicativas relevantes. 

Da mesma forma que para o linktest , na se^ao 12.5 elaboraremos o teste RESET a partir da estimanao de um 
modelo no Stata. 


12.4. MODELOS NAO L1NEARES DE REGRESSAO 

Conforme ja estudamos, um modelo de regressao linear com uma unica variavel X pode ser representado por: 

Y i =a + b.X i +u i (12.65) 


Porem, imagine uma situa^ao em que a variavel Y seja mais bem explicada por um comportamento nao linear 
da variavel X. Desta forma, a ado^ao, por parte do pesquisador, de uma forma funcional linear podera gerar um 
modelo com menor R 2 e, consequentemente, com pior poder preditivo. 

Imagine uma situa^ao hipotetica apresentada por meio da Figura 12.46. Nitidamente, YeXse relacionam 
de maneira nao linear. 

Um pesquisador, bastante curioso, elaborou quatro modelos de regressao, com o intuito de escolher o mais 
apropriado para efeitos de previsao. As formas funcionais escolhidas foram a linear, a semilogaritmica, a quadratica 
e a conhecida por potencia. A Figura 12.47 apresenta os resultados destes quatro modelos. 



Figura 12.46 Exemplo de comportamento nao linear entre uma variavel Y e uma variavel X. 
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a) Especificagao Linear b) Especificagao Semilogaritmica 
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c) Especificagao Quadratica 



d) Especificagao em Potencia 
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Figura 12.47 Resultados da aplica^ao de quatro diferentes formas funcionais em regressao. 


Ao analisar os resultados, o pesquisador verificou que a forma funcional semilogaritmica apresentou maior 
R 2 , o que vai propiciar melhor poder preditivo do modelo e, portanto, sera o modelo a ser escolhido. Alem disso, 
percebeu tambem, neste caso, que a forma funcional linear foi a que apresentou R 2 mais baixo. 

As relates entres variaveis podem se dar por meio de inumeras formas funcionais nao lineares que eventu- 
almente devem ser consideradas quando da estima^ao de modelos de regressao, para que seja, de maneira mais 
adequada, compreendido o comportamento dos diferentes fenomenos. Neste sentido, o Quadro 12.3 apresenta 
as principais formas funcionais utilizadas. 

Segundo Linneman (1980) e Aguirre e Macedo (1996), a definig:ao da melhor forma funcional e uma questao 
empirica a ser decidida a favor do melhor ajuste dos dados. Ressaltamos, todavia, que o pesquisador tern liberda- 
de de aplicar as formas funcionais que melhor lhe convier com base na teoria subjacente, na analise preliminar 
dos dados e tambem em sua experiencia, porem a decisao a favor de determinada forma funcional, respeitando- 
-se os pressupostos da tecnica, tern como base o maior R 2 (para as mesmas amostras e com a mesma quantidade 
de parametros; caso contrario, deve-se op tar pela escolha da forma funcional cujo modelo apresentar o maior R 2 
ajustado, conforme ja discutimos). 


Quadro 12.3 Principais formas funcionais em modelos de regressao. 


Forma Funcional 

Modelo 

Linear 

Y i =a+b.X i +u i 

Semilogaritmica a Direita 

Yj =a-\-b.\n{X i )+ u i 

Semilogaritmica a Esquerda 

In {Y i ) = a+b.X i + u i 

Logaritmica (ou Log-Log) 

ln(\<) = c7+fc>.ln(X / )+£i / . 

Inversa 

Y^a+b. 

u 

1/.J 

b 

Quadratica 

v;=o+6.(x,) 2 +u i 

Cubica 

Y, =a+b.(X l f+u. 

Potencia 

Y i =a.(X l f+U, 


Fonte: Fouto (2004) e Favero (2005). 
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Segundo Fouto (2004) e Favero (2005), enquanto na forma funcional linear o parametro b indica o efeito 
marginal da varia^ao de X sobre a variavel Y, na forma funcional semilogaritmica a direita o parametro b repre- 
senta o efeito marginal da varia^ao de ln(X) sobre a variavel Y. 

Ja os parametros dos modelos com formas funcionais inversa, quadratica e cubica representam, respectivamen- 
te, o efeito marginal, sobre a variavel Y, da varia^ao do inverso, do quadrado e do cubo de X. 

Por fim, nas formas funcionais semilogaritmica a esquerda e logarftmica (log-log), o coeficiente da variavel X 
pode ser interpretado como uma elasticidade parcial. E importante mencionar que os modelos de regressao lo- 
gistica binaria e multinomial, os modelos de regressao para dados de contagem do tipo Poisson e binomial nega- 
tivo e os modelos de regressao para dados de sobrevivencia sao casos particulares dos modelos semilogaritmicos a 
esquerda, tambem conhecidos por modelos log-lineares ou exponenciais nao lineares, e serao estudados, respec- 
tivamente, nos Capitulos 13,14 e 17. 


12.4.1. Transforma^ao de Box-Cox: o modelo geral de regressao 

Box e Cox (1964), em seminal artigo, apresentam um modelo geral de regressao a partir do qual todas as for¬ 
mas funcionais apresentadas derivam, ou seja, sao casos particulares. Segundo os autores, e conforme discutem 
Favero (2005) e Favero et al. (2009), a partir do modelo de regressao linear com uma unica variavel X, represen- 
tado por meio da expressao (12.65), pode-se obter um modelo transformado a partir da substitui^ao de Ypor (Y A 
- 1) / A e de X por (. X 6 - 1) / 0, em que A e 6 sao os parametros da transforma^ao. Assim, o modelo passa a ser: 


Y *-1 

A 


a + b. 


r X? -1 

e 


\ 

+ u i 


( 12 . 66 ) 


A partir da expressao (12.66), podemos atribuir, conforme mostra a Quadro 12.4, valores para A e 6 de modo 
a obtermos casos particulares para algumas das principals formas funcionais definidas no Quadro 12.3. 

Box e Cox (1964) demonstram, por expansao de Taylor, que um logaritmo natural (In) e obtido quando de- 
terminado parametro (A ou 0 ) for igual a zero. 

Uma nova variavel obtida por meio de uma transferma^ao de Box-Cox aplicada a uma variavel original 
passa a apresentar uma nova distribui^ao (novo histograma). Por esta razao, e muito comum que pesquisadores 
obtenham novas variaveis transformadas a partir de variaveis originais, nos casos em que estas ultimas apresenta- 
rem grandes amplitudes e valores muito discrepantes. Por exemplo, imagine uma base de dados com pre^os por 
metro quadrado de aluguel de lojas, que podem variar de R$ 100/m 2 a R$10.000/m 2 . Neste caso, a aplica^ao 
do logaritmo natural diminuiria consideravelmente a amplitude e a discrepancia dos valores (ln(100) = 4,6 e 
ln(l0.000) = 9,2). Em finan^as e contabilidade, por exemplo, porte empresarial e uma variavel que ja e tradicio- 
nalmente conhecida como sendo o logaritmo natural dos ativos da empresa. 

Para variaveis dummy , obviamente qualquer transforma^ao de Box-Cox nao faz o menor sentido, ja que, como 
estas assumem valores iguais a 0 ou 1, qualquer expoente nao alterara o valor original da variavel. 

Conforme estudamos na se^ao 12.3, os pressupostos relacionados aos residuos (normalidade, homocedastici- 
dade e ausencia de autocorrela^ao) em modelos de regressao podem ser violados por falhas de especificatpao na 
forma funcional. Desta maneira, uma transforma^ao de Box-Cox pode auxiliar o pesquisador na defini^ao de 
outras formas funcionais, que nao a linear, propiciando inclusive que se responda a seguinte pergunta: Qual pa¬ 
rametro de Box-Cox (A para a variavel dependente e 0 para uma variavel explicativa) que maximiza 


Quadro 12.4 Transformagoes de Box-Cox e valores de A e 6 para cada forma funcional. 


Parametro A 

Parametro 9 

Forma Funcional 

1 

1 

Linear 

1 

0 

Semilogaritmica a direita 

0 

1 

Semilogaritmica a esquerda 

0 

0 

Logaritmica (ou Log-Log) 

1 

-1 

Inversa 

1 

2 

Quadratica 

1 

3 

Cubica 
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a aderencia a normalidade da distribui^ao de uma nova variavel transformada gerada a partir de 
uma variavel original? Como os parametros de Box-Cox variam de — oo a + 00 , qualquer valor pode ser ob- 
tido. Faremos uso do software Stata, na segao 12.5, para responder a esta importante questao. 

12.5. estima<;Ao de modelos de regressAo no software stata 

O objetivo desta se^ao nao e o de discutir novamente todos os conceitos inerentes as estatisticas e aos pres- 
supostos da tecnica de regressao, porem propiciar ao pesquisador que se conhe^am os comandos do Stata, bem 
como mostrar as suas vantagens em relagao a outros softwares, no que diz respeito aos modelos de dependencia. 
O mesmo exemplo da se^ao 12.2 sera aqui utilizado, sendo este criterio adotado ao longo de todo o livro. A re- 
produgao das imagens do Stata Statistical Software® nesta segao tern autoriza^ao da StataCorp LP @ . 

Voltando entao ao exemplo, lembremos que um professor tinha o interesse em avaliar se o tempo de deslo- 
camento de seus estudantes ate a escola, independentemente de onde estariam partindo, era influenciado por 
variaveis como distancia, quantidade de semaforos, periodo do dia em que se dava o trajeto e perfil do condutor 
ao volante. Ja partiremos para o banco de dados final construido pelo professor por meio dos questionamentos 
elaborados ao seu grupo de 10 estudantes. O banco de dados encontra-se no arquivo Tempodistsemperperfil. 
dta e e exatamente igual ao apresentado naTabela 12.10. 

Inicialmente, podemos digitar o comando desc, que faz com que seja possivel analisarmos as caracteristicas 
do banco de dados, como o numero de observa^oes, o numero de variaveis e a descri^ao de cada uma delas. A 
Figura 12.48 apresenta este primeiro output do Stata. 

Embora a variavel per seja qualitativa, possui apenas duas categorias que, no banco de dados, ja estao rotuladas 
como dummy (manha = 1; tarde = 0). Por outro lado, a variavel perfil possui tres categorias e, portanto, sera preci- 
so que criemos (n - 1=2) dummies , conforme discutido na se^ao 12.2.6. O comando tab oferece a distribui^ao 
de frequences de uma variavel qualitativa, com destaque para a quantidade de categorias. Se o pesquisador tiver 
duvidas sobre o numero de categorias, podera recorrer facilmente a este comando (Figura 12.49). 


. desc 

obs: 

vars: 

size: 

10 

6 

200 (99.9% of memory free) 


I storage 

1 variable name type 

display 

format 

value 

label 

variable label 

estudante 

strll 

%lls 



tempo 

byte 

%8.0g 


tempo para se chegar a escola (minutos) 

dist 

byte 

%8.0g 


distancia percorrida ate a escola (km) 

sem 

byte 

%8.0g 


quantidade de semaforos 

per 

byte 

%8.0g 

per 

periodo do dia 

perfil 

byte 

%9.0g 

perfil 

perfil ao volante 

|| Sorted by: j 


Figura 12.48 Descri^ao do banco de dados Tempodistsemperperfil.dta. 



Figura 12.49 Distribuigao de frequencias da variavel perfil. 


|| . xi i.perfil 


—}\ 

|| i .perfil 

Iperfill-3 

(naturally coded; Iperf ill omitted) || 


Figura 12.50 Criagao das duas dummies a partir da variavel perfil. 
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O comando xi i.perfil nos fornecera estas duas dummies , aqui nomeadas pelo Stata de _Iperfil_2 e _ 
Iperfil_3, mantendo exatamente o criterio apresentado naTabela 12.11 (Figura 12.50). 

Antes de elaborarmos o modelo de regressao multipla propriamente dito, podemos gerar um grafico que 
mostra as inter-rela^oes entre as variaveis, duas a duas. Este grafico, conhecido por matrix, pode propiciar ao 
pesquisador um melhor entendimento de como as variaveis se relacionam, oferecendo inclusive uma eventual 
sugestao sobre formas funcionais nao lineares.Vamos, neste caso, elaborar o grafico apenas com as variaveis quan- 
titativas do modelo (Figura 12.51), a fim de facilitar a visualiza^ao. Assim, devemos digitar o seguinte comando: 

graph matrix tempo dist sem 

Por meio deste grafico, podemos verificar que as relates entre a variavel tempo e as variaveis dist e sem sao 
positivas a aparentemente lineares. E possivel verificar tambem que talvez exista certa multicolinearidade entre as 
variaveis explicativas. Uma matriz de correlates simples tambem pode ser gerada antes da elabora^ao da regres¬ 
sao, a fim de municiar o pesquisador com informates nesta fase de diagnostic o do banco de dados. Para tanto, 
devemos digitar o seguinte comando: 

pwcorr tempo dist sem per _Iperfil_2 _Iperfil_3, sig 

A Figura 12.52 apresenta a matriz de correlates simples. 

Por meio desta matriz, podemos verificar realmente que as correlates entre as variaveis tempo e dist e entre 
tempo e sem sao altas e estatisticamente significantes, ao nivel de significance de 5%. E importante mencionar que 
os valores apresentados embaixo de cada correlate referem-se aos respectivos niveis de significance. Por meio 
da mesma matriz, por outro lado, e possivel perceber que podem surgir eventuais problemas de multicolineari¬ 
dade entre algumas variaveis explicativas, como, por exemplo, entre per e _Iperftl_3. Conforme veremos adiante, 
embora a correlate entre tempo e per seja maior, em modulo, do que entre tempo e _Iperfil_3 , a variavel per sera 
excluida do modelo final pelo procedimento Stepwise , diferentemente da variavel _Iperfil_3. 

Vamos, entao, a modelagem propriamente dita. Para tanto, devemos digitar o seguinte comando: 

reg tempo dist sem per _Iperfil_2 _Iperfil_J3 

O comando reg elabora uma regressao por meio do metodo de minimos quadrados ordinarios. Se o pes¬ 
quisador nao informar o nivel de confian^a desejado para a defini^ao dos intervalos dos parametros estimados, o 
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Figura 12.51 lnter-rela<;ao entre variaveis - grafico matrix. 
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1 . pwcorr tempo dist sem 

per _Iperfil_2 _Iperfil_3, 

sig 


1 

tempo 

dist 

sem 

per 

_Iperf~2 

_Iperf~3 

tempo | 

i 

1.0000 






i 

dist | 

1 

0.9052 

0.0003 

1.0000 





1 

sem | 

1 

0.9092 

0.0003 

0.7559 

0.0114 

1.0000 




1 

per | 

1 

-0.8487 

0.0019 

-0.6289 

0.0515 

-0.7319 

0.0161 

1.0000 



1 

Iperfil 2 | 

1 

-0.2828 

0.4284 

-0.1108 

0.7605 

-0.2236 

0.5346 

0.6547 

0.0400 

1.0000 


1 

Iperfil 3 | 

1 

0.5303 

0.1148 

0.3048 

0.3918 

0.2795 

0.4341 

-0.7638 

0.0101 

-0.5000 

0.1411 

1.0000 


Figura 12.52 Matriz de correlates simples. 


padrao sera de 95%. Entretanto, se o pesquisador desejar alterar o nivel de confian^a dos intervalos dos parametros 
para, por exemplo, 90%, devera digitar o seguinte comando: 

reg tempo dist sem per _Iperfil_2 __Iperfil_3, level (90) 

Iremos seguir com a analise mantendo o nivel de confian^a dos intervalos dos parametros em 95%. Os outputs 
encontram-se na Figura 12.53 e sao exatamente iguais aos apresentados na Figura 12.32. 

Como a tecnica de regressao faz parte do grupo de modelos conhecidos por Modelos Lineares Generalizados 
(Generalized Linear Models ), e como a variavel dependente apresenta distribui^ao normal (tambem conhecida 
por distribui^ao de Gauss ou distribui^ao gaussiana), os parametros estimados por minimos quadrados ordinarios 
(comando reg) e apresentados na Figura 12.53 tambem poderiam ser igualmente obtidos por meio da estima^ao 
por maxima verossimilhan^a, a ser estudada no proximo capitulo. Para tanto, poderia ter sido digitado o seguinte 
comando: 

glm tempo dist sem per _Iperfil_2 _Iperfil_3, family (gaussian) 

Conforme ja discutimos, os parametros das variaveis per e _lperfxl_2 nao se mostraram estatisticamente signi- 
ficantes neste modelo na presen^a das demais variaveis, ao nivel de significance de 5%. Partiremos, entao, para a 
aplica^ao do procedimento Stepwise, que exclui as variaveis cujos parametros nao se mostrem estatisticamente sig- 
nificantes, embora isso possa criar um problema de especifica^ao pela omissao de determinada variavel que seria 
relevante para explicar o comportamento da variavel dependente, caso nao houvesse outras variaveis explicativas 
no modelo final. Mais adiante, aplicaremos o teste RESET para a verifica^ao de eventual existence de erros de 
especifica^ao do modelo pela omissao de variaveis relevantes. 


. reg tempo dist sem per 

Source | SS 

_Iperfil_2 _Iperfil_3 

df MS 


Number of obs 
F( 5, 4) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 10 
= 264.12 

= 0.0000 
= 0.9970 

= 0.9932 

= 1.2288 

Model 

Residual 

1 

1 

1993.96043 

6.03956505 

5 398.792087 

4 1.50989126 

Total 

1 

2000 

9 222.222222 

tempo 

1 

Coef. 

Std. Err. t 

P>|t| 

[95% Conf. 

Interval] 

dist 

1 

.6740469 

.0717153 9.40 

0.001 

.4749333 

.8731605 

sem 

1 

6.646797 

1.094867 6.07 

0.004 

3.606958 

9.686636 

per 

1 

-5.371414 

3.778781 -1.42 

0.228 

-15.86299 

5.120164 

_Iperfil_2 

1 

1.779117 

1.44146 1.23 

0.285 

-2.223017 

5.781251 

_Iperfil_3 

1 

6.373641 

2.243105 2.84 

0.047 

.1457827 

12.6015 

_cons 

1 

13.49011 

3.860886 3.49 

0.025 

2.77057 

24.20965 

11 . 11 


Figura 12.53 Outputs da regressao linear multipla no Stata. 
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Vamos, entao, digitar o seguinte comando: 

stepwise, pr(0.05) : reg tempo dist sem per _Iperfil_2 _Iperfil_3 

Para a elabora^ao do comando stepwise, o pesquisador precisa definir o nivel de significance do teste t a 
partir do qual as variaveis explicativas sao excluidas do modelo. Os outputs encontram-se na Figura 12.54 e sao 
exatamente iguais aos apresentados na Figura 12.33. 

Analogamente, os parametros estimados e apresentados na Figura 12.54 tambem poderiam ser obtidos por 
meio do seguinte comando: 

stepwise, pr(0.05) : glm tempo dist sem per _Iperfil_2 _Iperfil_3, 

family(gaussian) 


. stepwise, pr(0.05): reg tempo dist sem per _Iperfil_2 _Iperfil_3 
begin with full model 
p = 0.2847 >= 0.0500 removing _Iperfil_2 
p = 0.5141 >= 0.0500 removing per 

10 

434.62 
0.0000 
0.9954 
0.9931 
1.2357 


Source | SS 

- + - 

Model | 1990.83863 

Residual | 9.16136725 

- + - 

Total I 2000 


MS 


663.612878 

1.52689454 


9 222.222222 


Number of obs 
F< 3, 6) 

Prob > F 
R-squared 
Adj R-squared 
Root MSE 


tempo | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

dist ] 

.7104531 

.0669006 

10.62 

0.000 

.5467532 

.874153 

sem | 

7.836844 

.6694031 

11.71 

0.000 

6.198874 

9.474814 

_Iperfil_3 | 

8.967607 

1.02889 

8.72 

0.000 

6.450003 

11.48521 

cons | 

8.291932 

.8535082 

9.72 

0.000 

6.203472 

10.38039 


Figura 12.54 Outputs da regressao linear multipla com procedimento Stepwise no Stata. 


Conforme ja estudado na se^ao 12.2.6, chegamos ao seguinte modelo de regressao linear multipla: 
tempo. = 8,2919 + 0,7105.dzs£. +7,8368.sem. + 8,9676. _Iperfil ^ _ q 

(agressivo=l 

O comando predict yhat faz com que seja gerada uma nova variavel (yhat) no banco de dados, que oferece 
os valores previstos (Y) para cada observa^ao do ultimo modelo elaborado. 

Entretanto, podemos tambem desejar saber o valor previsto para determinada observa^ao que nao se encon- 
tra na base de dados. Ou seja, podemos novamente elaborar a pergunta feita ao final da se^ao 12.2.6 e respon- 
dida, naquele momento, de forma manual: Qual e o tempo estimado para um aluno que se desloca 17 
quilometros, passa por dois semaforos, decide ir a escola de manha e tem um perfil considerado 
agressivo ao volante? 

Por meio do comando mfx, o Stata permite que o pesquisador responda esta pergunta diretamente. Assim, 
devemos digitar o seguinte comando: 

mfx, at(dist=17 sem=2 _Iperfil_3=l) 


Obviamente, o termo per = 1 nao precisa ser incluido no comando mfx, ja que a variavel per nao esta pre¬ 
sente no modelo final. O output e apresentado na Figura 12.55 e, por meio dele, podemos chegar a resposta de 
45,0109 minutos, que e exatamente igual aquela calculada manualmente na se^ao 12.2.6. 

Definido o modelo, partiremos para a verifica^ao dos pressupostos da tecnica, conforme estudado na se^ao 
12.3.Anteriormente, entretanto, e sempre interessante que o pesquisador, ao estimar determinado modelo, elabo- 
re uma analise acerca de eventuais observa^oes que sejam discrepantes na base de dados e estejam influenciando 
de maneira consideravel as estimativas dos parametros do modelo, e, como sabemos, esta influencia, assim como 
a presen^a de outliers, pode ser uma das causas da heterocedasticidade. 

Para tanto, introduziremos o conceito de distancia leverage que, para cada observa^ao i , corresponde ao valor 
da i-esima posi^ao da diagonal principal da matriz X(X , X)" 1 X 5 . Uma observa^ao pode ser considerada como 









Modelos de Regressao Simples e Multipla 571 


[T! ,,l ^nfx^™ ,l T^diTt=^^^em=^^^perf^*3=TT 


Marginal effects after regress 

y = Fitted values (predict) 
45.01093 


variable | 

dy/dx 

Std. Err. 

z 

P>|z| 

[ 95% C 

:.i. ] 

X 

dist | 

.7104531 

.0669 

10.62 

0.000 

.57933 

.841576 

17 

sem | 

7.836844 

.6694 

11.71 

0.000 

6.52484 

9.14885 

2 

_Iperf~3*| 

8.967607 

1.02889 

8.72 

0.000 

6.95102 

10.9842 

1 

(*) dy/dx is 

for discrete 

change of dummy variable 

from 0 to 

1 



Figura 1 2.55 Calculo da estima^ao de Y para valores das variaveis explicativas - comando mfx. 

grande influente da estimativa dos parametros de um modelo se a sua distancia leverage for maior que (2.k / n), 
em que k e o numero de variaveis explicativas e n e o tamanho da amostra. As distancias leverage sao geradas no 
Stata por meio do comando: 

predict lev, leverage 

No nosso exemplo, solicitaremos que o Stata gere as distancias leverage para o modelo final estimado com o 
procedimento Stepwise. Estas distancias estao apresentadas naTabela 12.16. 

No modelo final, como (2 .k/n) - (2.3/10) = 0,6, a observa^ao 8 (Antonio) e aquela com maior potencial para 
influenciar a estima^ao dos parametros e, consequentemente, deve-se dispensar aten^ao especial a ela, ja que even- 
tuais problemas de heterocedasticidade podem surgir em decorrencia desse fato. Um grafico das distancias leverage 
em fun^ao dos termos de erro padronizados ao quadrado (Figura 12.56) pode propiciar ao pesquisador uma facil 
analise das observances com maior influencia sobre os parametros do modelo (altas distancias leverage) e, ao mesmo 
tempo, uma analise das observances consideradas outliers (elevados residuos padronizados ao quadrado). Como sabe- 
mos, ambas podem gerar problemas de estimanao. O comando para elaboranao deste grafico no nosso exemplo e: 

lvr2plot, mlabel(estudante) 

Por meio do grafico da Figura 12.56, podemos perceber que, enquanto Antonio tern maior influencia sobre 
os parametros do modelo. Ana tern propensao a ser um outlier na amostra por pelo fato de apresentar maior termo 
de erro em modulo (e, consequentemente, maior termo de erro padronizado ao quadrado). O grau de influencia 
destas observances sobre o surgimento da heterocedasticidade no modelo devera ser investigado quando da ela¬ 
boranao dos testes de verificanao dos pressupostos.Vamos entao a eles! 

O primeiro pressuposto, conforme mostra o Quadro 12.2, refere-se a normalidade dos residuos.Vamos, dessa 
forma, gerar uma variavel que corresponde aos termos de erro do modelo final. Para tanto, devemos digitar o 
seguinte comando: 

predict res, res 


Tabela 12.16 Distancias leverage para o modelo final. 


Observanao 

lev. 

(0 

(Modelo Final) 

Gabriela 

0,23 

Dalila 

0,45 

Gustavo 

0,33 

Leticia 

0,54 

Luiz Ovidio 

0,54 

Leonor 

0,22 

Ana 

0,28 

Antonio 

0,74 

Julia 

0,51 

Mariana 

0,16 
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Figura 12.56 Distances leverage em fun^ao dos residuos padronizados ao quadrado. 


Apos gerarmos a variavel res , que oferece os valores dos termos de erro de cada observa^ao para o modelo final es- 
timado com o procedimento Stepwise , podemos elaborar um grafico que permite a compara^ao visual da distribui^ao 
dos termos de erro gerados pelo modelo com a distribui^ao normal padrao. Assim, devemos digitar o seguinte comando: 

kdensity res, normal 

O grafico gerado encontra-se na Figura 12.57 e, por meio do mesmo, podemos ter uma ideia do quanto a 
distribui^ao dos residuos gerados (Kernel density estimate) se aproxima da distribui^ao normal padrao. 



Figura 12.57 Grafico de aderencia entre a distribui^ao dos residuos e a distribui^ao normal. 

Como a amostra deste exemplo e de apenas 10 observances, aplicaremos o teste de Shapiro-Wilk, recomenda- 
do para amostras com ate 30 observances (conforme discutimos no Capitulo 7), para que possamos efetivamente 
corroborar a hipotese de que a distribuinao dos residuos e aderente a distribuinao normal. Para tanto, utilizare- 
mos o seguinte comando: 


swilk res 
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O output do teste encontra-se na Figura 12.58 e, por meio de sua analise, podemos verificar que os termos 
de erro apresentam distribui^ao normal ao mvel de significance de 5%, nao havendo rejei^ao de sua hipotese 
nula. 


. swilk res 







Shapiro-Wilk W 

test for normal 

data 


Variable | 

Obs 

W 

V 

z 

Prob>z 

res | 

10 

0.90525 

1.460 0 

.675 

0.24995 


Figura 12.58 Resultado do teste de normalidade de Shapiro-Wilk para os residuos. 

Para amostras maiores, conforme discutimos, recomenda-se a aplica^ao do teste de Shapiro-Francia, cujo co- 
mando e: 

sfrancia res 

O segundo pressuposto a ser verificado diz respeito a inexistencia de multicolinearidade das variaveis explica¬ 
tivas. Apos a elaboragao do modelo completo (ainda sem o procedimento Stepwise), podemos digitar o seguinte 
comando: 

estat vif 

Os outputs sao apresentados na Figura 12.59 e, por meio deles, podemos verificar que a estatistica VIF da 
variavel per e a mais elevada de todas ( VIF per = 19,86), o que indica que o R 2 resultante de uma regressao com 
esta variavel como dependente de todas as outras seria de aproximadamente 95% ( Tolerance per = 0,05). A propria 
Figura 12.52 nos mostra que as correlates simples entre a variavel per e as demais variaveis explicativas sao bas- 
tante elevadas, o que ja da inicialmente a entender que ha existence de multicolinearidade. Entretanto, como sa- 
bemos, o modelo final nao inclui esta variavel, e tampouco a variavel _Iperfil_2. A Figura 12.60 mostra os outputs 
gerados por meio do comando estat vif aplicado apos a elaboragao do procedimento Stepwise . 

Como o modelo final obtido apos o procedimento Stepwise nao apresenta estatisticas VIF muito elevadas para 
nenhuma variavel explicativa, podemos considerar que a multicolinearidade existente no modelo completo foi 
bastante reduzida. A propria variavel sem , presente no modelo final, teve sua estatistica VIF reduzida de 6,35 para 
2,35 com a exclusao principalmente da variavel per. E importante apenas que verifiquemos, por meio do teste 
RESET, se a exclusao destas variaveis criara algum problema de especificagao por omissao de variavel relevante. 
Isso sera elaborado mais adiante. 


. estat vif 

Variable | 

VIF 

1/VIF 




per | 

19.86 

0.050353 

sem | 

6.35 

0.157446 

_Iperfil_3 | 

5.33 

0.187554 

__Iperfil_2 | 

3.44 

0.290670 

dist | 

2.77 

0.360660 




Mean VIF | 

7.55 



Figura 12.59 Estatisticas VIF e Tolerance das variaveis explicativas para o modelo completo. 


. estat vif 



Variable | 

VIF 

1/VIF 

dist | 
sem | 
_Iperfil__3 | 

2.39 

2.35 

1.11 

0.419106 

0.425935 

0.901469 

Mean VIF | 

1.95 



Figura 12.60 Estatisticas VIF e Tolerance das variaveis explicativas para o modelo final. 
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O terceiro pressuposto refere-se a ausencia de heterocedasticidade. Inicialmente, apenas para efeitos de diag¬ 
nostic, vamos elaborar um grafico dos valores dos termos de erro em fungao dos valores previstos (V) do mode- 
lo estimado. A Figura 12.61 apresenta os graficos gerados apos as estimates do modelo completo e do modelo 
final, em que sao plotados os valores dos residuos padronizados em fun^ao dos valores estimados da variavel de- 
pendente. O comando para a elabora^ao destes graficos, que deve ser digitado apos a estimagao de cada um dos 
modelos, e: 

rvfplot, yline(0) 

Enquanto a Figura 12.61a mostra a formagao de um “cone” nitidamente visivel, o mesmo ja nao pode ser 
afirmado em rela£ao a Figura 12.61b. De fato, como veremos adiante, o modelo completo, com a inclusao de 
todas as variaveis explicativas, apresenta heterocedasticidade, enquanto o modelo final obtido por meio do pro- 
cedimento Stepwise gera termos de erro homocedasticos. 

Para a verifica^ao da existencia de heterocedasticidade, aplicaremos o teste de Breusch-Pagan/Cook-Weisberg 
que, conforme ja discutimos, apresenta, como hipotese nula, o fato de a variancia dos termos de erro ser constante 
(erros homocedasticos) e, como hipotese alternativa, o fato de a variancia dos termos de erro nao ser constante, 
ou seja, os termos de erro serem uma fungao de uma ou mais variaveis explicativas (erros heterocedasticos). Este 
teste e indicado para os casos em que a suposi^ao de normalidade dos residuos for verificada, como no presente 
exemplo. 


a) Modelo Completo com Todas as Variaveis 


Figura 12.61 Metodo grafico para identificagao de heterocedasticidade. 

A se^ao 12.3.3.3, conforme vimos, descreve o teste e oferece uma possibilidade de que o mesmo seja elabora- 
do de forma manual, passo a passo. Faremos isso inicialmente, a fim de que o pesquisador possa analisar os outputs 
e confronta-los com os resultados gerados pelo Stata. 

Para tanto, precisamos desenvolver uma tabela que permita o calculo da estatistica de Breusch-Pagan, a partir 
da estima^ao do modelo final: 

tempo i = 8,2919 + 0,7105. dist i +7,8368 .sem i + 8,9676. _Iperftl_ 3. + w. 

Com base na estimagao de u { para cada observa^ao, podemos calcular os valores de u} e, por meio da expres- 
sao (12.40), os valores de up { . A Tabela 12.17 traz estes valores. 

Para a obten^ao do resultado do teste, o procedimento e que se elabore a regressao up- — a + b.Y i + , de onde 

se calcula a soma dos quadrados da regressao ( SQR) que, dividindo-se por 2, chega-se a estatistica ^ 2 B p/cw* No 
nosso exemplo, SQR = 3,18, de onde vem que ^ 2 B p/cw = < X 2 \ g.i. = 3 » 84 P ara ° nivel de significancia de 

5%, ou seja, a hipotese nula do teste (termos de erro homocedasticos) nao pode ser rejeitada. 

O comando para a aplicagao direta do teste no Stata e dado por: 


r 

CVJ- 

• 




N 

— 


• 




00 

to 

Z3 

~o 






CO ° 
O) 

DC 

• 

• 

• 



CNi 






V 

io 

20 

30 40 

Fitted values 

50 

60 

J 


b) Modelo Final (Procedimento Stepwise) 



30 40 

Fitted values 


estat hettest 
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Tabela 12.17 Elaborate) do teste de Breusch-Pagan/Cook-Weisberg. 


Observa^ao (i) 

«< 

2 

U i 

u i 

■Y t 

up ‘ ~ T- 1 

X“. 2 /n 

V=1 J 

Gabriela 

1,02444 

1,04948 

1,14555 

13,97556 

Dalila 

-0,39149 

0,15327 

0,16730 

20,39149 

Gustavo 

1,05127 

1,10517 

1,20634 

18,94873 

Leticia 

0,69455 

0,48241 

0,52657 

39,30545 

Luiz Ovidio 

-0,69455 

0,48241 

0,52657 

50,69455 

Leonor 

1,05624 

1,11564 

1,21777 

23,94376 

Ana 

-1,84420 

3,40106 

3,71240 

11,84420 

Antonio 

0,46304 

0,21440 

0,23403 

54,53696 

Julia 

-1,02146 

1,04339 

1,13890 

36,02146 

Mariana 

-0,33784 

0,11413 

0,12458 

30,33784 

Soma 


9,16137 



Media 


0,91614 




que avalia a existencia de heterocedasticidade do ultimo modelo gerado. O resultado deste teste para o modelo 
completo com a inclusao de todas as variaveis explicativas, embora nao apresentado aqui, mostra que ha existen¬ 
cia de heterocedasticidade, como inclusive ja esperavamos quando da analise da Figura 12.61a. Por outro lado, a 
Figura 12.62 apresenta o resultado do teste para o modelo final resultante do procedimento Stepwise, que e exa- 
tamente o mesmo daquele obtido manualmente, e, por meio de sua analise, podemos afirmar que este modelo 
final nao apresenta problemas de heterocedasticidade (valor-P % 2 — 0,2069 > 0,05). 


. estat hettest 

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
Ho: Constant variance 
Variables: fitted values of tempo 

chi2(1) = 1.59 

Prob > chi2 = 0.2069 


Figura 12.62 Teste de Breusch-Pagan/Cook-Weisberg para heterocedasticidade. 


Analogamente ao teste de Breusch-Pagan/Cook-Weisberg, o teste de White tambem avalia a rejeigao ou nao 
da hipotese nula de que os termos de erro sejam homocedasticos, a um determinado nivel de significance. O 
comando para a realiza^ao deste teste e: 

estat imtest, white 


O output e apresentado na Figura 12.63 e oferece a mesma conclusao sobre a inexistencia de heterocedastici¬ 
dade dos residuos no modelo final. 

Como nao verificamos a existencia de heterocedasticidade no modelo final proposto, nao elaboraremos a es- 
tima^ao pelo metodo de minimos quadrados ponderados. Entretanto, caso um pesquisador queira, por alguma 
razao, estimar um modelo com pondera^ao pela variavel per , podera propor a seguinte estima^ao: 


tempo { 

per 


- + k. 


m 



sem. , per f Iperfil 2. 

-^ + fe 3 .^- + fe 4 . - F J 1 

per { per per { 


+ b - Ipeifil _ 3 i 
P er , 



O comando para a estimafao do modelo por minimos quadrados ponderados pela variavel per seria: 


wlsO tempo dist sem per _Iperfil_2 _Iperfil_3, wvar(per) type(abse) 
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. estat imtest, white 

White's test for Ho: homoskedasticity 

against Ha: unrestricted heteroskedasticity 

chi2(7) = 7.09 

Prob > chi2 = 0.4201 

Cameron & Trivedi's decomposition of IM-test 


Source | chi2 df p 

- + - 

Heteroskedasticity | 7.09 7 0.4201 

Skewness | 1.90 3 0.5935 

Kurtosis | 1.42 1 0.2341 

- ; - + - 

Total | 10.40 11 0.4947 


Figura 12.63 Teste de White para heterocedasticidade. 

Tambem nao apresentaremos os outputs da estima^ao com erros-padrao robustos de Huber-White, dada a ine- 
xistencia de heterocedasticidade neste exemplo. Entretanto, caso um pesquisador interessado deseje estudar a tec- 
nica, o comando para a elabora^ao desta estimagao seria: 

reg tempo dist sem per _Iperfil_2 _Iperfil_J3, rob 

Como o banco de dados do nosso exemplo e uma cross-section, nao verificaremos o pressuposto de autocor- 
rela^ao dos residuos neste caso. Entretanto, mais adiante, por meio de outro banco de dados, estudaremos a apli- 
ca^ao dos testes voltados a verifica^ao de tal pressuposto no Stata. 

Sendo assim, partiremos para a aplica^ao do linktest que, conforme discutido na se^ao 12.3.5, se refere a um 
procedimento que cria duas novas variaveis a partir da elabora^ao de um modelo de regressao, que nada mais 
sao do que as variaveis Ye Y 2 , de onde se espera, ao regredirmos Y em fun^ao destas duas variaveis, que Y seja 
estatisticamente significante e Y 2 nao seja, uma vez que, se o modelo original for especificado corretamente em 
termos de forma funcional, o quadrado dos valores previstos da variavel dependente nao devera apresentar um 
poder explicativo sobre a variavel dependente original. O comando para aplica^ao deste teste no Stata e: 

linktest 

que deve ser digitado apos a elabora^ao do modelo final. Os outputs do teste encontram-se na Figura 12.64. 

Por meio da analise destes outputs , mais especificamente em relagao ao valor-P da estatistica t da variavel Jkatsq 
(que se refere a Y 2 , ou seja, ao valor estimado ao quadrado da variavel tempo), podemos afirmar que o linktest nao 
rejeita a hipotese nula de que o modelo foi especificado corretamente em termos de forma funcional, ou seja, a 
forma funcional linear neste caso e adequada. 

O teste RESET, tambem discutido na se^ao 12.3.5, avalia a existencia de erros de especifica^ao do modelo 
pela omissao de variaveis relevantes e, analogamente ao linktest, cria novas variaveis com base nos valores de Y 
gerados a partir da estima^ao do modelo original. Desta forma, apos a elabora^ao do modelo final por meio do 


. linktest 


Source | 

SS 

df 

MS 

Number of obs 
F( 2, 7) 

= 

10 

773.68 






Model | 

1990.99304 

2 

995.496519 

Prob > F 

= 

0.0000 

Residual | 

9.00696205 

7 

1.28670886 

R-squared 

= 

0.9955 





Adj R-squared 


0.9942 






Total | 

2000 

9 

222.222222 

Root MSE 

= 

1.1343 


tempo | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

_hat | 
_hatsq | 
_cons | 

1.048706 

-.0007371 

-.6510503 

.142885 

.0021279 

2.059793 

7.34 

-0.35 

-0.32 

0.000 

0.739 

0.761 

.7108366 

-.0057687 

-5.521687 

1.386575 

.0042945 

4.219586 


Figura 12.64 Linktest para verifica^ao da adequa^ao da forma funcional do modelo. 
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procedimento Stepwise e seguindo a expressao (12.63), iremos estimar o seguinte modelo, a partir do qual calcu- 
laremos manualmente a estatistica F apresentada na expressao (12.64): 

tempo . = a + b x . dist. + b 2 .sem { + b 3 . _ _ 3,. 4- ^. [tempo . ) 2 4- . [tempo . ) 3 4* . [tempo . ) 4 4* V. 

Com base na estima^ao do modelo final gerado pelo procedimento Stepwise (que possui termos de erro u t ) e 
neste ultimo modelo desenvolvido a partir da expressao (12.63) para se aplicar o teste RESET (que possui termos 
de erro V t ), podemos criar aTabela 12.18. 


Tabela 12.18 Constru^ao da estatistica F do teste RESET. 


Observa^ao (i) 

u i 

«? 

V. 

V. 2 

Gabriela 

1,02444 

1,04948 

1,27097 

1,61537 

Dalila 

-0,39149 

0,15327 

-0,31770 

0,10093 

Gustavo 

1,05127 

1,10517 

-0,49256 

0,24261 

Leticia 

0,69455 

0,48241 

0,48498 

0,23521 

Luiz Ovidio 

-0,69455 

0,48241 

-0,48498 

0,23521 

Leonor 

1,05624 

1,11564 

0,51232 

0,26247 

Ana 

-1,84420 

3,40106 

-0,75292 

0,56689 

Antonio 

0,46304 

0,21440 

0,25524 

0,06515 

Julia 

-1,02146 

1,04339 

0,12753 

0,01626 

Mariana 

-0,33784 

0,11413 

-0,60288 

0,36346 

Soma 


9,16137 


3,70356 


E, a partir da Tabela 12.18, podemos calcular a estatistica F do teste RESET , como segue: 



F = 


3 



V-i. J 

[n-k — 4) 


(9,16137-3,70356) 

_3_ 

(3,70356) 

(10-3-4) 


1,47 


Como a estatistica F calculada para (3, 3) graus de liberdade e menor do que o correspondente F critico 
3 ) — 9,28 para o nivel de significance de 5%), podemos afirmar que o modelo original nao apresenta omissao 
de variaveis explicativas relevantes. 

Para que seja elaborado o teste RESET no Stata, devemos digitar o seguinte comando apos a estima^ao do 
modelo final gerado por meio do procedimento Stepwise: 

ovtest 


O output encontra-se na Figura 12.65. 

Desta forma, o linktest e o teste RESET nos indicam que nao temos erros de especifica^ao no modelo final 
gerado por meio do procedimento Stepwise. Se nao fosse esse o caso, precisarfamos reespecificar o modelo por 
meio da mudan^a de sua forma funcional ou por meio da inclusao de variaveis explicativas relevantes que foram 
excluidas quando da estima^ao. 


. ovtest 

Ramsey RESET test using powers of the fitted values of tempo 
Ho: model has no omitted variables 

F(3, 3) = 1.47 

Prob > F = 0.3788 


Figura 12.65 Teste RESET para verifica^ao de omissao de variaveis relevantes no modelo. 
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Portanto, o modelo proposto estimado com o procedimento Stepwise nao apresentou problemas em rela^ao a 
nenhum dos pressupostos e nem tampouco ha a presen^a de erros de especifica^ao. 

A fim de que seja possivel estudarmos uma eventual inexistencia de linearidade em modelos de regressao, ire- 
mos agora trabalhar com outro banco de dados. 

Imaginemos agora que o nosso professor tenha sido convidado para fazer uma palestra para 50 profissionais 
do setor publico a respeito de mobilidade urbana, visto que ele tern pesquisado bastante sobre o tempo de loco- 
mo^ao das pessoas no municipio em fungao da distancia percorrida e de outras variaveis, como a quantidade de 
semaforos por que passam diariamente. Ao termino de sua palestra, muito aplaudida, o professor nao pode perder 
a oportunidade de coletar mais dados para suas investigates e, por conta disso, questionou cada um dos 50 pre- 
sentes sobre o tempo de locomo^ao ate o predio em que estavam, a distancia percorrida no trajeto e a quantidade 
de semaforos por que cada um havia passado naquela manha. Assim, montou o banco de dados que se encontra 
no arquivo Palestratempodistsem.dta. 

Seguindo os passos do professor, devemos inicialmente elaborar uma regressao linear multipla para avaliar a 
influencia das variaveis dist e sem sobre a variavel tempo. Assim, devemos digitar o seguinte comando: 

reg tempo dist sem 

Os resultados encontram-se na Figura 12.66. 


. reg tempo dist sem 


Source | 

SS 

df 

MS 

Number of obs 
F ( 2, 47) 

= 

50 

53.86 






Model | 

6185.00996 

2 

3092.50498 

Prob > F 

= 

0.0000 

Residual | 

2698.61004 

47 

57.4172349 

R-squared 

Adj R-squared 

= 

0.6962 

0.6833 






Total | 

8883.62 

49 

181.298367 

Root MSE 

= 

7.5774 


tempo | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

dist | 

.7728111 

.1850909 

4.18 

0.000 

.4004562 

1.145166 

sem | 

1.154891 

.2750456 

4.20 

0.000 

.601571 

1.708212 

cons | 

13.06767 

5.007771 

2.61 

0.012 

2.993332 

23.142 


Figura 12.66 Resultados da regressao linear multipla. 


Embora a analise preliminar dos resultados mostre uma estimagao satisfatoria, o modelo apresentado na 
Figura 12.66 apresenta termos de erro com distribui<;ao nao aderente a normalidade, conforme podemos verifi- 
car por meio do teste de Shapiro-Francia (amostra com mais de 30 observances), obtido por meio da digita^ao 
do seguinte comando: 

predict res, res 

sfrancia res 

O resultado do teste encontra-se na Figura 12.67. 


. predict res. 

res 




. sfrancia res 

Shapiro- 

Francia W' 

test for 

normal data 

Variable | 

Obs 

W' 

V' 

z Prob>z 

res j 

50 0 

.93155 

3.549 

2.378 0.00869 


Figura 12.67 Resultado do teste de Shapiro-Francia para verificanao de normalidade dos residuos. 


Como discutimos na se^ao 12.3.1, o pressuposto da normalidade assegura que o valor-P dos testes t e do teste 
F sejam validos. Entretanto, a viola^ao de tal pressuposto pode ser resultante de erros de especificanao quanto a 
forma funcional do modelo. 
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Desta maneira, precisaremos elaborar graficos da variavel dependente em fungao de cada uma das variaveis 
explicativas individualmente e, nestes graficos, apresentaremos o ajuste linear (valores previstos) e o ajuste co- 
nhecido por lowess (locally weighted scatterplot smoothing ), que se refere a um metodo nao parametrico que utiliza 
multiplas regressoes para identificar o padrao de comportamento dos dados e, por alisamento, ajustar uma curva 
nao necessariamente linear. Desta forma, devemos digitar os seguintes comandos: 

graph twoway scatter tempo dist || lfit tempo dist || lowess tempo dist 

graph twoway scatter tempo sem || lfit tempo sem || lowess tempo sem 

A Figura 12.68 apresenta os dois graficos gerados. 

Nitidamente podemos perceber, por meio destes graficos, que ha diferen^as entre os ajustes linear e lowess, 
principalmente para a variavel dist (Figura 12.68a). Outra forma usual e similar de detectar a nao linearidade do 
modelo e por meio de graficos que apresentam a rela^ao entre os residuos parciais aumentados (augmented 


a) Tempo em Fungao da Distancia Percorrida 



Figura 12.68 Graficos com ajuste linear e ajuste lowess. 
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component-plus-residuals) e cada uma das variaveis explicativas. Para a obten^ao destes graficos, devemos digitar os 
seguintes comandos: 

acprplot dist, lowess 

acprplot sem, lowess 

A Figura 12.69 apresenta os dois graficos gerados. 

Analogamente a Figura 12.68, o grafico da Figura 12.69a tambem mostra que o ajuste lowess nao se aproxima 
do ajuste linear, ao contrario do grafico da Figura 12.69b, o que pode indicar problemas quanto a forma funcio- 
nal linear da variavel dist no modelo de regressao. Podemos perceber, para esta variavel, que ha uma quantidade 


a) Resfduos Parciais Aumentados em Fungao da Distancia Percorrida 



b) Resfduos Parciais Aumentados em Fungao da Quantidade de Semaforos 



Figura 12.69 Graficos com ajuste linear e ajuste lowess para os resfduos parciais aumentados. 
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0 50 1090 20 30 40 

Figura 12.70 Inter-rela^ao entre variaveis - grafico matrix. 


consideravel de pontos que potencialmente influenciam o comportamento do modelo. O grafico matrix apre- 
senta claramente este fenomeno, conforme mostra a Figura 12.70, gerada pela digita^ao do seguinte comando: 

graph matrix tempo dist sem, half 

Por meio deste grafico, verificamos que a rela^ao entre as variaveis tempo e sem e aparentemente linear, po- 
rem a rela^ao entre tempo e dist e claramente nao linear, conforme ja discutido. Iremos, desta forma, nos focar na 
variavel dist. 

Inicialmente, faremos uma transforma^ao logaritmica na variavel dist, de modo a criarmos a variavel Indist, 
como segue: 

gen lndist=ln(dist) 

E, desta forma, podemos estimar um novo modelo de regressao, com a seguinte forma funcional: 

tempo . = a + b x . In dist { + b 2 .sem i + «. 

cujos parametros e resultado do teste de Shapiro-Francia para os residuos podem ser obtidos no Stata pela digi- 
ta^ao dos comandos: 

reg tempo Indist sem 
predict resl, res 
sfrancia resl 

e cujos resultados encontram-se na Figura 12.71. 

Isto mostra que, embora a transforma^ao logaritmica em variaveis explicativas possa, em alguns casos, melho- 
rar a qualidade do ajuste do modelo, o que nao e verdade neste caso, isto ainda nao garante que o pressuposto da 
normalidade dos residuos seja atendido. O proprio grafico da Figura 12.72, obtido por meio do comando a se- 
guir, nos mostra que a forma funcional logaritmica da variavel dist nao se ajusta adequadamente a variavel tempo. 

acprplot Indist, lowess 

Desta forma, conforme estudamos na se^ao 12.4.1, vamos elaborar uma transforma^ao de Box-Cox a varia¬ 
vel dependente, de modo que a nova variavel criada apresente distribui^ao com maior aproxima^ao possivel da 
distribui^ao normal, mesmo que nao haja garantia alguma de que esta transforma^ao va efetivamente gerar uma 
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. gen lndist=ln(dist) 

. reg tempo lndist sem 

Source | SS 

df 


MS 


Number of obs 
F ( 2 , 47) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 50 

= 51.02 

= 0.0000 
= 0.6847 

= 0.6712 

= 7.7204 

Model | 
Residual | 

6082.22904 

2801.39096 

2 

47 

3041.11452 

59.6040629 

Total | 

8883.62 

49 

181 

.298367 

tempo | 

Coef. 

Std. 

Err. 

t 

p>iti 

[95% Conf. 

Interval] 

lndist | 

18.73429 

4.826059 

3.88 

0.000 

9.025515 

28.44307 

sem | 

1.277542 

.2664751 

4.79 

0.000 

.741463 

1.81362 

_cons | 

-27.26546 

15.31812 

-1.78 

0.082 

-58.08154 

3.550618 

. predict resl. 

res 







. sfrancia resl 









Shapiro-Francia 

W 

test for 

normal data 


Variable | 

Obs 

W 


V’ 

z 

Prob>z 


resl | 

50 0 

93561 


3.339 

2.267 

0.01168 



Figura 12.71 Resultados da estima^ao do modelo nao linear e do teste de Shapiro-Francia. 



Figura 12.72 Grafico com ajuste linear e ajuste lowess para os residuos parciais 
aumentados em fun^ao do logaritmo natural da distancia percorrida. 


variavel com distribui^ao normal. Para tanto, vamos criar uma variavel chamada de bctempo , a partir da variavel 
tempo e por meio da transforma^ao de Box-Cox. Para tanto, devemos digitar o seguinte comando: 

bcskewO bctempo - tempo 


A Figura 12.73 apresenta o resultado da transforma^ao de Box-Cox, com enfase para o parametro A apresen- 
tado na expressao (12.66) (parametro L no output do Stata). 

Logo, temos que: 


bctempo { — 


(. x a A 
tempo. -1 

A 


(, 2,6486 1 ^ 

tempo. — 1 

v 2,6486 y 
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. bcskewO bctempo = 

tempo 



Transform | 

L 

[95% Conf. Interval] 

Skewness 

(tempo A L-1)/L | 

2.648597 

(not calculated) 

-1.88e-06 


Figura 12.73 Transforma^ao de Box-Cox na variavel dependente. 

O grafico que mostra o quanto a distribuigao da variavel bctempo (Kernel density estimate) se aproxima da distri- 
buigao normal padrao pode ser gerado e comparado com o grafico que considera a variavel tempo original. Estes 
graficos podem ser obtidos por meio dos comandos: 

kdensity tempo, normal 

kdensity bctempo, normal 

e sao apresentados na Figura 12.74. 

a) Variavel tempo b) Variavel bctempo 


Figura 12.74 Grafico de aderencia entre a distribui^ao da variavel Ye a distribui^ao normal. 

Embora as duas variaveis nao apresentem uma aderencia muito proxima a normalidade, percebe-se claramen- 
te que a maior proximidade se da com a variavel bctempo.Vamos, entao, estimar o seguinte modelo: 

bctempo. = a + b x .dist { + b 2 .sem { + u i 

cujos parametros e resultado do teste de Shapiro-Francia para os residuos podem ser obtidos no Stata pela digi- 
ta^ao dos comandos: 

reg bctempo dist sem 

predict res2, res 

sfrancia res2 

e cujos resultados encontram-se na Figura 12.75. 

Isto mostra que a aderencia da distribuigao da variavel dependente a normalidade, em modelos de regressao, 
pode fazer com que sejam estimados, por meio do metodo de minimos quadrados ordinarios, parametros mais 
adequados a determinagao dos intervalos de confianga para efeitos de previsao, ja que podem ser gerados termos 
de erro normais. No apendice deste capitulo, faremos uma breve apresenta^ao dos modelos de regressao quanti- 
lica, que podem ser utilizados alternativamente aos modelos estimados pelo metodo de minimos quadrados or¬ 
dinarios para os casos em que nem mesmo a transformagao de Box-Cox na variavel dependente garante a deter- 
minaf ao de residuos com distribuigao aderente a normalidade. Situa^oes como essa podem ocorrer, entre outras 
razoes, quando a variavel dependente apresentar consideravel assimetria em sua distribui^ao. 

Logo, chegamos ao seguinte modelo: 

= —7.193,16 + 386,6511. dist. +840,903.sem. +u { 

que apresenta baixo problema de heterocedasticidade (na verdade, apresenta termos de erro homocedasticos 
ao mvel de significancia de 1%) e estatisticas VIF de 1,83. O proprio grafico da Figura 12.76 mostra que a 


, 2,6486 a A 

tempo ( — 1 
2,6486 
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. reg betempo 

Source | 

dist sem 

SS 

df 

MS 


Number of obs 
F( 2, 47) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 50 

= 41.96 

= 0.0000 
= 0.6410 

= 0.6257 

= 5293.8 

Model | 
Residual | 

2.3519e+09 
1.3171e+09 

2 

47 

1.1760e+09 
28024387.8 

Total | 

3.6691e+09 

49 

74878715.3 

betempo | 

Coef. 

Std. 

Err. t 

p>iti 

[95% Conf. 

Interval] 

dist | 

386.6511 

129 

.31 2.99 

0.004 

126.513 

646.7892 

sem | 

840.903 

192. 

155 4.38 

0.000 

454.3371 

1227.469 

__cons | 

-7193.16 

3498. 

576 -2.06 

0.045 

-14231.39 

-154.9323 

. predict res2, res 






. sfrancia res2 







Shapiro-Francia 

l W test for 

normal data 


Variable | 

Obs 

W 

V’ 

z 

Prob>z 


res2 | 

50 0 

97217 

1.443 

0.706 

0.24018 



Figura 12.75 Resultados da estima^ao do modelo com transforma^ao de Box-Cox na variavel 
dependente e do teste de Shapiro-Francia. 


transforma^ao de Box-Cox na variavel dependente aproxima consideravelmente o ajuste estimado ao ajuste lo¬ 
wess. Tal grafico pode ser obtido por meio do comando: 

acprplot dist, lowess 

Logo, cabera ao pesquisador, em fun^ao do diagnostico dos dados que sempre precisara ser feito, em fun^ao 
da sua experiencia e com base na teoria subjacente, definir uma adequada forma funcional quando da estima^ao 
de modelos de regressao, a fim de que se atendam os pressupostos e que sejam obtidos estimadores mais eficien- 
tes para a elabora^ao de previsoes. 

Por fim, iremos agora estudar o problema da autocorrela^ao dos residuos por meio do Stata. Imaginemos que o pro¬ 
fessor, ao terminar a palestra e voltar para a escola, tenha tido a ideia de acompanhar o tempo de percurso dos alunos ao 
longo de um periodo de 30 dias. Para tanto, dia apos dia ele coletou os dados dos alunos referentes ao tempo de deslo- 
camento, a distancia percorrida e a quantidade de semaforos. So que, ao inves de elaborar o banco de dados por aluno 
e por dia, o que resultaria num painel de dados longitudinais (que estudaremos no Capitulo 15), o professor tabulou os 



Figura 12.76 Grafico com ajuste linear e ajuste lowess para os residuos parciais aumentados 
em fun^ao da distancia percorrida para o modelo com transformagao de Box-Cox. 
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dados medios de cada variavel por dia, ou seja, o tempo medio de trajeto percorrido por dia, a distancia media percor- 
rida pelos alunos em cada dia e a quantidade media de semaforos. O objetivo do professor agora (e o nosso tambem) e 
estimar o seguinte modelo: 

tempo t = a + b 1 .dist t +b 2 .sem t +£ t (t = 1,2,..., 30) 

e o banco de dados encontra-se no arquivo Analisetemporaltempodistsem.dta. 

Antes de estimarmos o modelo proposto, e preciso que seja definida a variavel correspondente a evolu^ao 
temporal (no caso, a variavel dia). Para tanto, devemos digitar, logo ao abrir o arquivo, o seguinte comando: 

tsset dia 

Uma informa^ao como a que aparece na Figura 12.77 surgira na tela. 

Caso o pesquisador se esque^a de definir a variavel referente a evolu^ao temporal, o que e muito comum, o 
Stata nao permitira que sejam elaborados os testes de Durbin-Watson e de Breusch-Godfrey, e uma mensagem de 
erro aparecera na janela de outputs do software, informando ao pesquisador que a variavel temporal precisa ser de¬ 
finida. Por outro lado, diversos pacotes estatisticos, como o SPSS, propiciam o calculo das estatisticas de Durbin- 
Watson, por exemplo, mesmo que o banco de dados esteja em cross-section , o que e um erro grave. 


. tsset dia 
time 

variable: 

dia, 1 to 30 


delta: 

1 unit 


Figura 12.77 Defini^ao da variavel temporal. 


Apos a elaboragao da regressao propriamente dita, por meio do comando a seguir, poderemos entao elaborar 
os testes voltados a verifica^ao de existencia de autocorrela^ao dos residuos. 

reg tempo dist sem 

Os resultados da estima^ao encontram-se na Figura 12.78. 

Embora o modelo estimado apresente problemas, ao nivel de significancia de 5%, em rela^ao a normalidade 
dos residuos (teste de Shapiro-Wilk) e a heterocedasticidade (teste de Breusch-Pagan/Cook-Weisberg), restrin- 
giremos a analise, neste momento, a autocorrela^ao dos residuos. Para tanto, iremos inicialmente elaborar o teste 
de Durbin-Watson, por meio do seguinte comando: 

estat dwatson 


. reg tempo dist sem 


Source | 

SS 

df 

MS 

Number of 
F ( 2, 

Prob > F 
R-squared 

obs 

27) 

= 

30 

34.17 

0.0000 

0.7168 

0.6958 

7.3002 

Model | 
Residual | 

3642.45366 

1438.91301 

2 

27 

1821.22683 

53.2930744 

= 

Total | 

5081.36667 

29 

175.21954 

Root MSE 

= 


tempo | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

dist | 

.7816866 

.2019979 

3.87 

0.001 

.3672211 

1.196152 

sem | 

1.040915 

.3335171 

3.12 

0.004 

.3565945 

1.725236 

__cons | 

14.32001 

5.508772 

2.60 

0.015 

3.016943 

25.62308 


Figura 12.78 Resultados da estima^ao do modelo temporal. 


O resultado do teste encontra-se na Figura 12.79. 

Por meio daTabela C do apendice do livro, e de acordo com a Figura 12.45 da se^ao 12.3.4.3, temos, ao nivel de 
significancia de 5% e para um modelo com 3 parametros e 30 observances, que d v = 1,567 < 1,779 < 2,433 = 4 -d v , 
ou seja, a estatistica DW aproximadamente igual a 2 resulta em inexistencia de autocorrela^ao de primeira or- 
dem dos residuos. 

Conforme discutido na se^ao 12.3.4.4, como o teste de Durbin-Watson so e valido para a verifica^ao da exis¬ 
tencia de autocorrela^ao de primeira ordem dos termos de erro, o teste de Breusch-Godfrey passa a ser mais geral 
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[ . estat dwatson |l 

Durbin-Watson d-statistic( 3, 30) = 1.779404 || 

Figura 12.79 Resultado do teste de Durbin-Watson. 

na medida em que tambem e adequado para avaliar a existencia de autocorrela^ao dos residuos com defasagens 
maiores. Numa base com dados diarios, por exemplo, talvez seja interessante que o pesquisador estude eventuais 
autocorrela^oes de ordem 7, a fim de que sejam capturados fenomenos com sazonalidade semanal. Seguindo a 
mesma logica, para dados mensais, talvez seja interessante que o pesquisador avalie a existencia de eventuais au- 
tocorrela^oes de ordem 12, a fim de tentar capturar sazonalidades anuais. 

Para fins didaticos, no nosso exemplo vamos elaborar o teste de Breusch-Godfrey com todas as defasagens 
possiveis para este banco de dados, ou seja, com ordens que variam de 1 a 28 (t - 1, t - 2, t - 3,..., t - 28). O co- 
mando a ser digitado e: 

estat bgodfrey, lags(l 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 
21 22 23 24 25 26 27 28) 


Os resultados encontram-se na Figura 12.80. 

Por meio da Figura 12.80, podemos perceber que nao ha problemas de autocorrela^ao dos residuos para qual- 
quer que seja a defasagem proposta. 

A capacidade do Stata para a estima^ao de modelos e a elabora^ao de testes estatisticos e enorme, porem acre- 
ditamos que o que foi exposto aqui e considerado obrigatorio para pesquisadores que desejam utilizar de forma 
correta as tecnicas de regressao simples e multipla. 

Partiremos agora para a resolu^ao dos mesmos exemplos por meio do SPSS, ressaltando que, embora a sua 
capacidade de processamento e gera^ao de outputs seja considerada por muitos como sendo mais limitada do que 
a do Stata, e tido por vezes como um software mais amigavel e mais facil de ser utilizado. 


. estat bgodfrey, lags(1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 
23 24 25 26 27 28) 


Breusch-Godfrey LM test for autocorrelation 


lags(p) | 

chi2 

df 

Prob > chi2 

1 | 

0.213 

1 

0.6447 

2 I 

1.478 

2 

0.4775 

3 1 

2.292 

3 

0.5140 

4 I 

3.137 

4 

0.5352 

5 | 

3.138 

5 

0.6787 

6 I 

3.658 

6 

0.7228 

7 I 

4.382 

7 

0.7349 

8 I 

4.423 

8 

0.8171 

9 1 

4.765 

9 

0.8543 

10 | 

5.176 

10 

0.8791 

11 1 

5.181 

11 

0.9221 

12 | 

15.487 

12 

0.2159 

13 | 

17.025 

13 

0.1982 

14 | 

17.644 

14 

0.2235 

15 | 

18.444 

15 

0.2400 

16 | 

18.623 

16 

0.2887 

17 | 

19.119 

17 

0.3217 

18 | 

19.157 

18 

0.3822 

19 | 

20.730 

19 

0.3519 

20 | 

20.831 

20 

0.4072 

21 | 

22.068 

21 

0.3956 

22 | 

22.186 

22 

0.4488 

23 | 

26.104 

23 

0.2960 

24 | 

26.155 

24 

0.3453 

25 | 

26.169 

25 

0.3986 

26 | 

28.427 

26 

0.3378 

27 | 

30.000 

27 

0.3142 

28 | 

30.000 

28 

0.3632 


HO: no serial correlation 


Figura 12.80 Resultados do teste de Breusch-Godfrey. 
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12.6. ESTIMA^AO DE MODELOS DE REGRESSAO NO SOFTWARE SPSS 

Apresentaremos agora o passo a passo para a elaboragao do nosso exemplo por meio do IBM SPSS Statistics 
Software®, e a reprodugao de suas imagens nesta se^ao tern autorizagao da International Business Machines 
Corporation®. 

Seguindo a mesma logica proposta quando da aplica^ao dos modelos por meio do software Stata, ja parti- 
remos para o banco de dados final construido pelo professor a partir dos questionamentos feitos a cada um de 
seus 10 estudantes. Os dados encontram-se no arquivo Tempodistsemperperfil.sav e, apos o abrirmos, vamos 
inicialmente clicar em Analyze —> Regression —» Linear..., A caixa de dialogo da Figura 12.81 sera aberta. 


Linear Regression 


j oa estudante __ 

$ tempo para se chef 
$ distancia peroorrida at... 
$ quantidade de semafor... 
perfbdo do dia (per] 
perfil==2 [perfil2] 
perfil==3 [perfifS] 



* ^ 

Dependent: 

: i 

Statistics... 

j 


C" 

Plots... 

L', •-i Tr . f .J 

/ ' .. V 

r* 

■ 

Block 1 of 1 ———-———--- \ 


fp; OV-CV? 



Selection Variable: 


Case Labels: 


* 


1 WLS Weight: 


( ' ) ' ( Reset j 


Cancel 


Help 


Options... 


Bootstrap... i 


Figura 12.81 Caixa de dialogo para elabora^ao da regressao linear no SPSS. 


Devemos selecionar a variavel tempo e inclui-la na caixa Dependent. As demais variaveis devem ser simulta- 
neamente selecionadas e inseridas na caixa Independent(s). Manteremos, neste primeiro momento, a opgao pe¬ 
lo Method: Enter, conforme podemos observar por meio da Figura 12.82. O procedimento Enter , ao contrario 
do procedimento Stepwise , inclui todas as variaveis na estimagao, mesmo aquelas cujos parametros sejam estatisti- 
camente iguais a zero, e corresponde exatamente ao procedimento padrao elaborado pelo Excel e tambem pelo 
Stata quando se aplica o comando reg. 

O botao Statistics... permite que selecionemos a opgao que fornecera os parametros e os respectivos in- 
tervalos de confian^a nos outputs . A caixa de dialogo que e aberta, ao clicarmos nesta op^ao, esta apresentada na 
Figura 12.83, em que foram selecionadas as opgoes Estimates (para que sejam apresentados os parametros pro- 
priamente ditos com as respectivas estatisticas t) e Confidence intervals (para que sejam calculados os interva¬ 
ls de confian^a destes parametros). 

Voltaremos a caixa de dialogo principal da regressao linear ao clicarmos em Continue. 

O botao Options... permite que alteremos os niveis de significance para rejeigao da hipotese nula do teste F 
e, consequentemente, das hipoteses nulas dos testes t. O padrao do SPSS, conforme pode ser observado por meio 
da caixa de dialogo que e aberta ao clicarmos nesta op^ao, e de 5% para o nivel de significance. Nesta mesma cai¬ 
xa de dialogo, podemos impor que o parametro a seja igual a zero (ao desabilitarmos a op^ao Include constant 
in equation). Manteremos o padrao de 5% para os niveis de significance e deixaremos o intercepto no modelo 
(opgao Include constant in equation selecionada). Esta caixa de dialogo e apresentada na Figura 12.84. 
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Linear Regression. 


estudamte 


* distancia percorrtda at... 
$ quantidade de semafor.. 

pertodo do dia {per] 

<Q) perfit==2 tperfiC] 
perfil==3 [perfil3] 




Dependent: 


$ tempo para se chegar a escola ... 


Statistics.. 


rBlock 1 of 1 

r - 

I Previous 

v__^ 

Independent's): 


Plots... 


Q 


Next 


$ distancia percomda ate a es... 
$ quantidade de semaforos fs... 
<$> perfodo do dia {per] 


Method: Enter 


^ 1 

l Selection Variable: __ x 


| i Ru!e.. 1 


i Case Labels: 




Save... 


Options... 


Bootstrap.. 


WLS Weight: 


□0d 


Paste 


Reset 


Cancel 


Help 


Figura 12.82 Caixa de dialogo para elaboragao da regressao linear no SPSS com inclusao 
da variavel dependente e das variaveis explicativas e selegao do procedimento Enter . 


Vamos agora selecionar Continue e OK. Os outputs gerados estao apresentados na Figura 12.85. 

Nao iremos novamente analisar outputs gerados, uma vez que podemos verificar que sao exatamente 
iguais aqueles obtidos quando da elabora^ao da regressao linear multipla no Excel (Figura 12.32) e no Stata 
(Figura 12.53).Vale a pena comentar que o F de significagao do Excel e chamado de Sig. Feo valor-P e chamado 
de Sig. t no SPSS. 



near Regression: Statistics 


("Regression Coefficients- 
[H Estimates 
(§3 -Confidence intervals! 
Level(%): 


95 


O Covariance matrix 


M Model fit 
0 R squared change 
O Descriptives 
O Port and partial correlations 
0 Collinearity diagnostics 


rResiduals- 


0 Durbin-Watson 
0 Casewise diagnostics 
® Outliers outside: ? 3 

© All cases 


standard deviations 


[continue | 


Cancel 


Help 


Figura 12.83 Caixa de dialogo para selegao dos parametros e dos intervalos de confianga. 
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Linear Regression; Options 


-Stepping Method Criteria—— 

® Use probability of Fj 
Entry; [jqs j Removal: 

© Use F value 

Entry; 3^4 Removal: 2,71 


,10 


2 Include constant in equation 
•Missing Values—-—: - 

® Exclude cases listwise 
© Exclude cases pairwise 
© Replace with mean 


Figura 12.84 Caixa de dialogo para eventual alteragao dos niveis de significance e exclusao 
do intercepto em modelos de regressao linear. 


Model Summary 


Model 

R 

R Square 

Adjusted R 
Square 

Std. Error of 
the Estimate 

1 

,998 a 

,997 

,993 

1,229 


a. Predictors; (Constant), foerfil—-3, quantidade de 
semaforos, perfil==2, distancia percorrida ate a escola (km), 
periodo do dia 


ANOVA b 


Model 

Sum of 
Squares 

df 

Mean Square 

F 

Sig. 

1 Regression 

1993,960 

5 

398,792 

264,120 

,000 a 

Residual 

6,040 

4 

1,510 



Total 

2000,000 

9 





a. Predictors: (Constant), perfil==3, quantidade de semaforos, perfil==2, distancia 
percorrida ate a escola (km), periodo do dia 

b. DependentVariable: tempo para se chegar a escola (minutes) 


Coefficients 3 



Unstandardized Coefficients 

Standardized 

Coefficients 



95,0% Confidence Interval for 8 

Model 

B 

Std. Error 

Beta 

t 

Sig. 

Lower Bound 

Upper Bound 

1 (Constant) 

13,490 

3,861 


3,494 

,025 

2,771 

24,210 

distancia percorrida ate a 
escola (km) 

,674 

,072 

,430 

9,399 

,001 

,475 

,873 

quantidade de semaforos 

6,647 

1,095 

,420 

6,071 

,004 

3,607 

9,687 

periodo do dia 

-5,371 

3,779 

-.174 

-1,421 

,228 

-15,863 

5,120 

perfii==2 

1,779 

1,441 

,063 

1,234 

,285 

-2,223 

5,781 

perfii==3 

6.374 

2,243 

,180 

2,841 

,047 

,146 

12,601 


a. DependentVariable: tempo para se chegar a escola (minutos) 

Figura 12.85 Outputs da regressao linear multipla no SPSS - procedimento Enter. 


Vamos agora, enfim, elaborar a regressao linear multipla por meio do procedimento Stepwise. Para elaborarmos 
este procedimento, devemos selecionar a opgao Method: Stepwise na caixa de dialogo principal da regressao 
linear no SPSS, conforme mostra a Figura 12.86. 

Voltaremos novamente a caixa de dialogo principal da regressao linear ao clicarmos em Continue. 

O botao Save... permite que sejam criadas, no proprio banco de dados original, as variaveis referentes ao Y 
e aos residuos do modelo final gerado pelo procedimento Stepwise. Sendo assim, ao clicarmos nesta opgao, sera 
aberta uma caixa de dialogo, conforme mostra a Figura 12.87. Com esta finalidade, devemos marcar as op^oes 

Unstandardized (em Predicted Values) e Unstandardized (em Residuals). 
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$ distancla percorrida at... 
$ quantidade de semafor., 
(5> perrodo do dia [perj 
perflt==2 (perfII2] 
perflt-—3 [perfif3J 


4 4*t ‘+7 


> Dependent: 


se chegar a escola ... 


rBlock 1 of 1 * 


I Previous 


Next 


Independemt(s): 

^ distancia percorrida ate a es... 
$ quantidade de semaforos [s... 
<5> period© do dia (per] 


Method: [Stepwise 


Selection Variable: 


Case Labels: 


WLS Weight: 


OK 


Paste 


Reset 


Cancel 


Help 


Statistics... 


Plots... 


Save... 


( Options!? 


Bootstrap... j 


f Ru!e.. ] 


Figura 12.86 Caixa de dlalogo com selegao do procedlmento Stepwise. 


Ao clicarmos em Continue e, na sequencia, em OK, novos outputs sao gerados, conforme mostra a 
Figura 12.88. Note que, alem dos outputs , sao criadas duas novas variaveis no banco de dados original, chamadas 
de PRE_1 e RES_1 , que correspondem, respectivamente, aos valores de Ye aos valores estimados dos residuos 
(exatamente aqueles ja mostrados na Figura 12.33). 

O procedimento Stepwise elaborado pelo SPSS mostra o passo a passo dos modelos que foram elaborados, par- 
tindo da inclusao da variavel mais significativa (maior estatistica t em modulo entre todas as explicativas) ate a inclu- 
sao daquela com menor estatistica t, porem ainda com Sig. t < 0,05.Tao importante quanto a analise das variaveis 
incluidas no modelo final e a analise da lista de variaveis excluidas (Excluded Variables). Assim, podemos verificar 
que, ao se incluir no modelo 1 apenas a variavel explicativa sem , a lista de variaveis excluidas apresenta todas as de¬ 
rmis. Se, para o primeiro passo, houver alguma variavel explicativa que tenha sido excluida, porem apresenta-se de 
forma significativa (Sig. t < 0,05), como ocorre para a variavel dist, esta sera incluida no modelo no passo seguinte 
(modelo 2). E assim sucessivamente, ate que a lista de variaveis excluidas nao apresente mais nenhuma variavel com 
Sig. t < 0,05. As variaveis remanescentes nesta lista, para o nosso exemplo, sao per e petfi\2 , conforme ja discutimos 
quando da elabora^ao da regressao no Excel e no Stata; o modelo final (modelo 3 do procedimento Stepwise), que 
e exatamente aquele ja apresentado por meio das Figuras 12.33 e 12.54, conta apenas com as variaveis explicativas 
dist, sem e perfil3, e com R 2 = 0,995. Assim, conforme ja vimos, o modelo linear final estimado e: 

tempo i — 8,292 + 0,710 .dist. + 7,837. sem i + 8,968.pe^/3 ?: ^ 

lagressivo=l 


Partiremos agora para a verifica^ao dos pressupostos do modelo. Inicialmente, vamos elaborar o teste 
de Shapiro-Wilk para verifica^ao de normalidade dos residuos. Para tanto, devemos clicar em Analyze —> 
Descriptive Statistics Explore.... Na caixa de dialogo que e aberta, devemos inserir a variavel RES_1 
(Unstandardized Residual) em Dependent List e clicar em Plots... Nesta janela, devemos selecionar a op$ao 
Normality plots with tests, clicar em Continue e em OK. A Figura 12.89 mostra este passo a passo. 

O teste de Shapiro-Wilk indica que os termos de erro apresentam distribui^ao aderente a normalidade, ja 
que seu resultado (Figura 12.90) nao indica a rejei^ao de sua hipotese nula. Podemos verificar que o resultado e 
exatamente igual ao obtido pelo Stata e apresentado por meio da Figura 12.58. 
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Linear Regression: Save 


Predicted Values-—— 

M Unstandardized 
B Standardized 
B Adjusted 

B S.E. of mean predictions 


r Residuals——--- 

[§j jUnstandardizecf 
B Standardized 
B Studentized 
B Deleted 

B Studentized deleted 


Distances--—— 

B Mahatanobis 
B Cook's 
B Leverage values 


Prediction Intervals-—- 

d Mean O Individual 
Confidence Interval: 95 % 


‘Influence Statistics- 

B DfBeta(s) 

B Standardized DfBeta(s) 

Bdp 

B Standardized DfFit 
B Covariance ratio 


rCoefficient statistics--- 

B Create coefficient statistics 
® Create a new dataset 
Dataset name: 

© Write a new data file 


Uls 


rExport model information to XML file- 


SB Include the covariance matrix 


Figura 12.87 Caixa de dialogo para inser^ao dos valores previstos (?) e dos residuos no proprio banco de dados. 


Na sequencia, vamos elaborar o diagnostico de multicolinearidade das variaveis explicativas. Para tanto, deve- 
mos solicitar ao software que gere as estatisticas VIF e Tolerance quando for feita a estima^ao do modelo. Assim, 

em Analyze —> Regression —> Linear..., no botao Statistics... devemos marcar a op^ao Collinearity diag¬ 
nostics, conforme mostra a Figura 12.91. 

Os outputs gerados sao os mesmos dos apresentados na Figura 12.88, porem agora as estatisticas VIF e Tolerance 
sao calculadas para cada variavel explicativa, conforme mostra o modelo 3 da Figura 12.92. Conforme ja discu- 
tido quando da apresenta^ao da Figura 12.60, como o modelo final obtido apos o procedimento Stepwise nao 
apresenta estatisticas VIF muito elevadas para nenhuma variavel explicativa, podemos considerar que nao ha pro- 
blemas de multicolinearidade. 

Com rela^ao ao problema da heterocedasticidade, o mais comum e que se elabore inicialmente um grafico 
para se avaliar o comportamento dos residuos em fun^ao da variavel dependente. Assim, devemos novamente cli— 
car em Analyze —> Regression —> Linear.... O botao Plots... permite que sejam elaborados graficos de diag¬ 
nostico do comportamento dos residuos em fun^ao dos valores estimados da variavel dependente e, ao clicarmos 
neste botao, sera aberta uma caixa de dialogo, conforme mostra a Figura 12.93.Vamos solicitar que seja gerado o 
grafico dos valores estimados dos termos de erro padronizados em fun^ao dos valores estimados padronizados da 
variavel dependente. Este procedimento e analogo ao que gerou o grafico da Figura 12.61b. 







a. Predictors; (Constant), quantidade de semaforos 

b. Predictors; (Constant), quantidade de semaforos, 
distancia percorrlda ate a escola (km) 

c. Predictors: (Constant), quantidade de semaforos, 
distancia percorrida ate a escola (km), perfi(=3 

d. Dependent Variable: tempo para se chegar a escola 
(minutos) 


Model 

Sum of 
Squares 

1 Regression 

Residual 

Total 

1653,125 

346,875 

2000,000 

2 Regression 

Residual 

Total 

1874,848 

125,152 

2000,000 

3 Regression 

Residual 

Total 

1990,839 

9,161 

2000,000 



a. Predictors: (Constant), quantidade de semaforos 

b. Predictors: (Constant), quantidade de semaforos, distancia percorrida ate a escoia 
(km) 

c. Predictors: (Constant), quantidade de semaforos, distincia percorrida ate a escola 
(km), perfil=3 

d DependentVariable: tempo para se chegar & escola (minutos) 


Standardized 

Unstandardized Coefficients Coefficients 



(Constant) 

quantidade de semaforos 
(Constant) 

quantidade de semaforos 

distancia percorrida ate a 
escola (km) 

i (Constant) "— 

quantidade de semaforos 

distancia percorrida ate a 
escola <km) 

perfil==3 


a. Dependent Variable: tempo para se chegar a escola (minutos) 



Excluded Variables d 



Model 


1 

distancia percorrida ate a 
escola (km) 

perfodo do clia 
perfil==2 

p8rfil==3 

2 

perfodo do dia 

perfil==2 

perfil==3 

3 

perfodo do dia 

perfil==2 



a. Predictors in the Model: (Constant), quantidade de semaforos 

b. Predictors in the Model: (Constant), quantidade de semaforos, distancia percorrida ate a escola 
(km) 

c. Predictors in the Model: (Constant), quantidade de semaforos, distancia percorrida ate a escola 
(km), perfil=3 

d. DependentVariable: tempo para se chegar a escola (minutos) 



Residuals Statistics 3 


Minimum Maximum 


Predicted Value 11,84 54,54 

Residual -1,844 1,056 

Std. Predicted Value -1,221 1,650 

Std, Residual *1,492 ,855 


a. DependentVariable: tempo para se chegar & escola (minutos) 



Figura 12.88 Outputs da regressao linear multipla no SPSS - procedimento Stepwise. 
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Explore 


Dependent List: 


iSk estudante 



$ Unstandardized Resid... 

^ tempo para se chegar... 
$ distancia percorrida at... 


* j 




Factor List: 

$ quantidade de semafor... 

perfodo do dia [per] 
perfil==2 [perfil2] 
perfil==3 [perfi!3] 


Tl 



f ^ 

Label Cases by: 

$ Unstandardized Predic... 








-Display- 

©Both ©Statistics ©Plots 



Explore: Plots 


-Boxplots 


-Descriptive 

©Factor levels together! 


O Stem-and-leaf 

© Dependents together 
©None 


□ Histogram 


S Normality plots with tests 
Spread vs Level with Levene Test— 

© None 

© Power estimation 
©Transformed Power: jwiur^iijy 
© Untransformed 


Continue I Cancel 


Help 


Figura 12.89 Procedimento para elabora^ao do teste de Shapiro-Wilk para a variavel RES_1. 


Tests of Normality 



Kolmogorov-Smirnov 3 

Shapiro-Wilk 

Statistic 

df 

Sig. 

Statistic 

df 

Sig. 

Unstandardized Residuai 

,177 

10 

,200* 

,905 

10 

,250 


a. Lilliefors Significance Correction 
* This is a lower bound of the true significance. 

Figura 12.90 Resultado do teste de normalidade de Shapiro-Wilk para os residuos. 
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C 


*« Linear Regression; Statistics 


Regression Coefficients* 
§2 [Estimates* 

(H Confidence intervals 
Level(%): 


95 


0 Covariance matrix 


@ Mode! fit 
0 R squared change 
D Descriptive® 

0 Part and partial correlations 
13 Coliinearfty diagnostics 


-Residuals “ 


0 Durbin-Watson 
O Casewise diagnostics 

<§> Outliers outside: |3 » standard deviations 

© All cases 



Figura 12.91 Caixa de dialogo para elabora<;ao do diagnostico de multicolinearidade. 


Coefficients 2 




Unstandardized Coefficients j 

Standardized 

Coefficients 



95,0% Confidence Interval forB 

Collinearity Statistics 

Model 


e 

Std, Error 

Beta 

t 

Sig. 

Lower Bound 

Upper Bound 

Tolerance 

VIF 

1 

(Constant) 

15,625 

3,123 


5,003 

,001 

8,422 

22,828 




quantldade de semSforos 

14,375 

2,328 

,909 

6,175 

,000 

9,006 

19,744 

1,000 

1,000 

2 

(Constant) 

8,151 

2,920 


2,791 

,02? 

1,246 

15,056 




quantldade de semSforos 

8,296 

2,284 

,525 

3,633 

,008 

2,897 

13,696 

,429 

2,333 


distincia percorrida ate a 
escola (km) 

,79? 

,226 

.509 

3,622 

,010 

,262 

1,333 

,429 

2,333 

3 

(Constant) 

8,292 

,854 


9,715 

,000 

6,203 

10,380 




quantldade de sem&foros 

7,837 

,669 

,496 

11,707 

,000 

6,199 

9,475 

,426 

2,348 


distancia percorrida ate a 
escola (km) 

,710 

.067 

,453 

10,620 

,000 

,54? 

,874 

,419 

2,386 


perfil==3 

8,968 

1,029 

,254 

8,716 

,000 

6,450 

11,485 

,901 

1,109 


a. Dependent Variable: tempo para se chegar 3 escola (minutos) 


Figura 12.92 Estatfsticas VIF e Tolerance das variaveis explicativas. 




Linear Regression: Plots 


m 

*ZPR ED 

*ZRES!D 

*DRES1D 

*ADJPRED 

*$RESID 

*SDRESID 


M 



-Standardized Residual Plots 

0 Histogram 
0 Normal probability pfd 


0. Produce all partial plots 


Figura 12.93 Caixa de dialogo para elaboragao do grafico de diagnostico do comportamento 
dos resfduos em fun$ao da variavel dependente. 
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O grafico gerado, apresentado na Figura 12.94, mostra que nao ha indicios de existencia de heterocedastici- 
dade, conforme ja discutimos quando da analise da Figura 12.61b. 


r 

Scatterplot 

Dependent Variable: tempo para se chegar a escola (minutos) 
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Figura 12.94 Grafico de diagnostico do comportamento dos residuos em fun^ao da variavel dependente. 


Embora o SPSS nao possua uma opgao direta para realizagao do teste de Breusch-Pagan/Cook-Weisberg, 
iremos construir o procedimento para a sua elaboragao no SPSS. Assim, vamos inicialmente criar uma nova va¬ 
riavel, que chamaremos de RES__tSQ e que se refere ao quadrado dos residuos. Para tanto, em Transform —> 
Compute Variable..., devemos proceder como mostra a Figura 12.95. No SPSS, o duplo asterisco corresponde 
ao operador expoente. 

Feito isso, vamos calcular a soma dos residuos ao quadrado, clicando em Analyze —> Descriptive Statistics —> 
Descriptives... e marcando a opgao Sum no botao Options..., conforme mostra a Figura 12.96. 

A soma dos termos da variavel RES_tSQ e 9,16137, o que esta de acordo com o apresentado na Tabela 
12.17.Vamos agora criar uma nova variavel, chamada de RESUP , em que: 


RESUP { = 


RES_lSQ i 

n 

Y,RES_1SQ 
V'=» J 


/n 


RES__lSQ i 

(9,16137)710 


seguindo a expressao (12.40). Logo, em Transform —> Compute Variable... devemos proceder de acordo com 
o apresentado na Figura 12.97. 

Na sequencia, devemos elaborar a regressao de RESUP em fungao dos valores estimados da variavel depen¬ 
dente, ou seja, em fungao da variavel de PRE_t. Nao iremos mostrar todos os outputs desta estima^ao, porem a 
Figura 12.98 apresenta a tabela ANOVA resultante. 

Por meio da tabela ANOVA, verificamos que a soma dos quadrados da regressao ( SQR ) e 3,185 que, dividin- 
do-se por 2, chega-se a estatistica J£ 2 bp/cw = 1>59 < X 2 \ g i = ^’84 para o nivel de significance de 5%, ou seja, a 
hipotese nula do teste (termos de erro homocedasticos) nao pode ser rejeitada, conforme tambem ja foi analisado 
por meio da Figura 12.62. 

Seguindo a logica apresentada na se^ao 12.5, vamos, neste momento, abrir o arquivo Palestratempodistsem. 
sav e estimar o seguinte modelo de regressao nao linear: 

tempo { = a + b v In dist { + b 2 .sem { + u. 


Para tanto, precisamos criar a variavel Indist (Figura 12.99), clicando em Transform —> Compute Variable..., 
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^Compute Variable 


Target Variable: 


Numeric Expression: 


RES I SO 


Type a Label... 


[4a, estudante 
$ tempo para se chegar... 
$ dfstancia percorrida at... 
$ quantidade de semafor., 
(£> period© do dia [per] 
<foperfil==2(perfil2] 

So perfil~=3 [perfi'13] 

$ Unstandardized Predie... 
$ Unstandardized ResicL. 




f ifl ](optional case selection condition) 


[ OK ] Paste 1 ^ Re set" ^Cancel j ** Help ] 


Function group: 


All 


Arithmetic 


CDF a Noncentral CDF 

4 

Conversion 


Current Date/Time 


Date Arithmetic 


Date Creation 

y* 


Functions and Special Variables: 


Figura 12.95 Cria^ao da variavel referente aos residuos ao quadrado (RES_1SQ). 


Descriptives 




Variable(s): 

tempo para se chegar... 
$ distancia percorrida at... 
$ quantidade de semafor... 

perlodo do dia [per] 

<£h perfil=*2 [perfil2] 
perfM [perfiiS] 

$ Unstandardized Predic... 
$ Unstandardized Resid... 


|.$ RES_1SQ 

O Save standardized values as variables 

□*J 

Paste 

Reset ] Cancel Help j 


f! Descriptives: Options 


Options... 


Bootstrap... 


O Mean 

0j Suni 

ulster ssiun 

O Std. deviation Q Minimum 

Q Variance 

O Maximum 

O Range 

n S.E. mean 


rDistribution- 


O Wurtosis O Skewness 


-Display Order-— 

© Variable list 
© Alphabetic 
© Ascending means 
© Descending means 



Figura 12.96 Calculo da soma dos residuos ao quadrado. 













Modelos de Regressao Simples e Multipla 597 


Target Variable: 
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perfil==2 £perfif2| 
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All 

1 
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1 

CDF & Noncentral CDF 

1 
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Current Date/Time 


Date Arithmetic 


Date Creation 

T" 

Functions and Special Variables: 


Figura 12.97 Cria^ao da variavel RESUP. 


ANOVA b 


Model 

Sum of 
Squares 

df 

Mean Square 

F 

Sig. 

1 Regression 

3,185 

1 

3,185 

3,749 

,089 a 

Residual 

6,797 

8 

,850 



Total 

9,982 

9 





a. Predictors: (Constant), Unstandardized Predicted Value 

b. DependentVariable: RESUP 

Figura 12.98 Tabela ANOVA da regressao de RESUP em fun^ao de PRE_1. 


A partir de entao, podemos estimar o modelo nao linear proposto. Os outputs nao serao aqui apresentados, 
porem sao os mesmos da Figura 12.71. 

Diferentemente do Stata, o SPSS nao oferece uma op^ao direta para elabora^ao de transformagoes de Box- 
Cox, de modo que nao estimaremos o modelo cujos resultados sao apresentados na Figura 12.75. Caso um pes- 
quisador deseje elaborar aquela estima^ao, devera criar manualmente, em Transform —> Compute Variable..., 
uma nova variavel dependente transformada. Entretanto, como nao se conhece, a priori , o parametro da transfor- 
magao de Box-Cox que maximiza a aproxima^ao da distribui^ao da nova variavel a distribui^ao normal, reco- 
mendamos fortemente que ao menos a obten^ao do parametro A seja feita por meio do Stata, com o procedi- 
mento elaborado para se chegar aos resultados da Figura 12.73. 

Por fim, mas nao menos importante, vamos apresentar o procedimento para verifica^ao de existencia de au- 
tocorrela^ao dos residuos no SPSS. Como este software nao dispoe de procedimento direto para elabora^ao do 
teste de Breusch-Godfrey, iremos nos ater a aplica^ao do teste de Durbin-Watson. Para tanto, devemos abrir o 
arquivo Analisetemporaltempodistsem.sav. 
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Figura 12.99 Cria^ao da variavel Indist. 


Quando da elaboragao da regressao propriamente dita, em Analyze —> Regression —» Linear..., o botao 
Statistics... oferece a op^ao para a realiza^ao do teste de Durbin-Watson. Devemos marcar esta op^ao, confor- 
me mostra a Figura 12.100. Note que nao ha qualquer mengao ao fato de que o banco de dados apresenta uma 
variavel correspondente a evolu^ao temporal, o que quer dizer que uma modelagem numa base em cross-section 
tambem permitiria a elabora^ao do referido teste, o que, conforme ja discutimos, e um erro grave. 


*2* Linear Regression: Statistics 



"Regression Coefficients- 
0 ^Estimates! 

O Confidence intervals 

Levels): 


0 Model fit 
D R squared change 

□ Descriptives 

□ Part and partial correlations 


□ Covariance matrix 


□ Collinearity diagnostics 


r Residuals 


@1 Durbin-Watson 
□ Casewise diagnostics 

® Oolfert' eufsicfe: 3 : deviations 

© M cases 



Figura 12.100 Caixa de dialogo para a elabora<;ao do teste de Durbin-Watson. 
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O resultado do teste esta na Figura 12.101, e e exatamente igual ao que ja foi apresentado por meio da Figura 12.79. 


Model Summary 


Model 

R 

R Square 

Adjusted R 
Square 

Std. Error of 
the Estimate 

Durbin- 

Watson 

1 

,847 a 

,717 

,696 

7,30021 

1,779 


a. Predictors: (Constant), quantidade media de semaforos, distancia media 
percorrida (km) 

b. Dependent Variable: tempo medio de deslocamento ate a escola (minutos) 


Figura 12.101 Resultado do teste de Durbin-Watson. 

Conforme ja discutido, a estatistica DW - 1,779 indica a inexistencia de autocorrelapao de primeira ordem 
dos termos de erro, ao nivel de significance de 5% e para um modelo com 3 parametros e 30 observapoes. 

12.7. CONSIDERA0ES FINAIS 

Os modelos de regressao simples e multipla estimados pelo metodo de minimos quadrados ordinarios (MQO, ou 
OLS) representam o grupo de tecnicas de regressao mais utilizadas em ambientes academicos e organizacionais, da- 
da a facilidade de aplicapao e de interpretapao dos resultados obtidos, alem do fato de estarem dispomveis na grande 
maioria dos softwares, mesmo naqueles em que nao haja especificamente um foco voltado a analise estatistica de dados. 
E importante tambem ressaltar a praticidade das tecnicas estudadas neste capitulo para fins de elaborapao de diagnos- 
ticos e previsoes. 

E de fundamental importance que o pesquisador sempre avalie e discuta o atendimento aos pressupostos da 
tecnica e, mais do que isso, sempre reflita sobre a possibilidade de que sejam estimados modelos nao necessaria- 
mente com formas funcionais lineares. 

Explicitamos, por fim, que o pesquisador nao precisa restringir a analise do comportamento de determinado 
fenomeno apenas e tao somente com base na teoria subjacente. A aplicapao de modelagens de regressao pede, 
por vezes, que sejam incluidas variaveis com base na experience e intuipao do pesquisador, a fim de que possam 
ser gerados modelos cada vez mais interessantes e diferentes do que tradicionalmente vem sendo proposto. Assim, 
novas oticas e perspectivas para o estudo do comportamento de fenomenos sempre poderao surgir, o que con- 
tribui para o desenvolvimento cientifico e para o surgimento de trabalhos empiricos cada vez mais inovadores. 

12.8. EXERCICIOS 

1. A tabela a seguir traz os dados de crescimento do PIB e investimento em educapao de determinada napao, ao 
longo de 15 anos: 


Ano 

Taxa de Crescimento do PIB (%) 

Investimento em Educapao (bilhoes de US$) 

01 

-1,50 

7,00 

02 

-0,90 

9,00 

03 

1,30 

15,00 

04 

0,80 

12,00 

05 

0,30 

10,00 

06 

2,00 

15,00 

07 

4,00 

20,00 

08 

3,70 

17,00 

09 

0,20 

8,00 

10 

-2,00 

5,00 

11 

1,00 

13,00 

12 

1,10 

13,00 

13 

4,00 

19,00 

14 

2,70 

19,00 

15 

2,50 

17,00 
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Pergunta-se: 

a. Qual a equa^ao que avalia o comportamento da taxa de crescimento do PIB (V) em fun^ao do investi- 
mento em educagao (X)? 

b. Qual percentual da variancia da taxa de crescimento do PIB e explicado pelo investimento em educa^ao (R 2 )? 

c. A variavel referente o investimento em educa^ao e estatisticamente significante, a 5% de nivel de signifi¬ 
cancia, para explicar o comportamento da taxa de crescimento do PIB? 

d. Qual o investimento em educa^ao que, em media, resulta numa taxa esperada de crescimento do PIB igual 
a zero? 

e. Qual seria a taxa esperada de crescimento do PIB se o governo desta na^ao optasse por nao investir em 
educa^ao num determinado ano? 

f. Se o investimento em educa^ao num determinado ano for de US$11 bilhoes, qual sera a taxa esperada de 
crescimento do PIB? E quais serao os valores minimo e maximo de previsao para a taxa de crescimento 
do PIB, ao nivel de confian^a de 95%? 

2. Os arquivos Corrup^ao.sav e Corrup^ao.dta trazem dados sobre 52 paises em determinado ano, a saber: 


Variavel 

Descri£ao 

pais 

Variavel string que identifica o pais i. 

cpi 

Corruption Perception Index, que corresponde a percep^ao dos cidadaos em rela^ao ao abuso do 
setor publico sobre os beneficios privados de uma na^ao, cobrindo aspectos administrativos e 
politicos. Quanto menor o indice, maior a percep^ao de corrup^ao no pais (Fonte: Transparency 
Internacional). 

idade 

Idade media dos bilionarios do pais (Fonte: Forbes). 

horas 

Quantidade media de horas trabalhadas por semana no pais, ou seja, o total anual de horas trabalhadas 
dividido por 52 semanas (Fonte: Organiza^ao Internacional doTrabalho). 


Deseja-se investigar se a percep^ao de corrup^ao de um pais e fun^ao da idade media de seus bilionarios e da 
quantidade media de horas trabalhadas semanalmente e, para tanto, sera estimado o seguinte modelo: 

cpi { — a + b x .idade . + b 2 .horas\ + u. 

Pede-se: 

a. Analise o mvel de significancia do teste F. Pelo menos uma das variaveis (idade e horas) e estatisticamente 
significante para explicar o comportamento da variavel cpi, ao nivel de significancia de 5%? 

b. Se a resposta do item anterior for sim, analise o mvel de significancia de cada variavel explicativa (testes f).Ambas 
sao estatisticamente significantes para explicar o comportamento de cpi, ao mvel de significancia de 5%? 

c. Qual a equa^ao final estimada para o modelo de regressao linear multipla? 

d. Qual o R 2 ? 

e. Discuta os resultados em termos de sinal dos coeficientes das variaveis explicativas. 

f. Salve os residuos do modelo final e verifique a existencia de normalidade nestes termos de erro. 

g. Por meio do teste de Breusch-Pagan/Cook-Weisberg, verifique se ha indicios de existencia de heteroce- 
dasticidade no modelo final proposto. 

h. Apresente as estatisticas VIF e Tolerance e discuta os resultados. 

3. Os arquivos Corrup 9 aoemer.sav e Corrup^aoemer.dta trazem os mesmos dados do exercicio anterior, 
porem agora com a inclusao de mais uma variavel, a saber: 


Variavel 

Descrifao 

emergente 

Variavel dummy correspondente ao fato de o pais ser considerado desenvolvido ou emergente, segundo 
o criterio da Compustat Global. Neste caso, se o pais for desenvolvido, a variavel emergente = 0; caso 
contrario, a variavel emergente = 1. 


Deseja-se inicialmente investigar se, de fato, os paises considerados emergentes apresentam menores indices 
cpi. Sendo assim, pede-se: 
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a. Qual a diferen^a entre o valor medio do indice cpi dos paises emergentes e o dos paises desenvolvidos? Esta 
diferen^a e estatisticamente significante, ao nivel de significancia de 5%? 

b. Elabore, por meio do procedimento Stepwise com nivel de significancia de 10% para rejei^ao da hipotese 
nula dos testes t, a estima^ao do modelo com a forma funcional linear a seguir. Escreva a equa^ao do mo- 
delo final estimado. 

cpi { — a + b x .idade { + b 2 .horns { + b 3 .emergente i + u. 

c. A partir desta estima^ao, pergunta-se: qual seria a previsao, em media, do mdice cpi para lim pais considera- 
do emergente, com idade media de seus bilionarios de 51 anos e com uma quantidade media de 37 horas 
trabalhadas semanalmente? 

d. Quais os valores minirno e maximo do intervalo de confian^a para a previsao do item anterior, ao nivel de 
confian^a de 90%? 

e. Imagine que um pesquisador proponha, para o problema em questao, que seja estimado o seguinte modelo 
com forma funcional nao linear. Escreva a equa^ao do modelo final estimado por meio do procedimento 
Stepwise e com nivel de significancia tambem de 10% para rejei^ao da hipotese nula dos testes t. 

cpi { = a + b 1 .idade j + b 2 . In {horas. ) + b 3 .emergente { + m. 

f. Dado que nao foram identificados problemas referentes aos pressupostos dos modelos de regressao em am- 
bos os casos, qual seria a forma funcional escolhida para efeitos de previsao? 

4. Um cardiologista tern monitorado, ao longo dos ultimos 48 meses, o indice de colesterol LDL (mg/dL), o 
indice de massa corporea (kg/m 2 ) e a frequencia semanal de realiza^ao de atividades fisicas de um dos prin¬ 
cipal executivos brasileiros. Seu intuito e orienta-lo sobre a importancia da manuten^ao ou perda de peso e 
da realiza^ao periodica de atividades fisicas. A evolu^ao do indice de colesterol LDL (mg/dL) deste executivo, 
ao longo do periodo analisado, encontra-se no grafico a seguir: 



Os dados encontram-se nos arquivos Colesterol.sav e Colesterol.dta, compostos pelas seguintes variaveis: 


Variavel 

Descri^ao 

mes 

Mes t da analise. 

colesterol 

Indice de colesterol LDL (mg/dL). 

imc 

Indice de massa corporea (kg/m 2 ). 

esporte 

Numero de vezes em que pratica atividades fisicas na semana (media no mes). 
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Deseja-se investigar se o comportamento, ao longo tempo, do mdice de colesterol LDL e influenciado pelo 

mdice de massa corporea do executivo e pela quantidade de vezes em que ele pratica atividades fisicas sema- 

nalmente. Para tanto, sera estimado o seguinte modelo: 

colesterol t = a + b x ,imc t + b 2 .esporte t + £ t 

Desta forma, pede-se: 

a. Qual a equa^ao final estimada para o modelo de regressao linear multipla? 

b. Discuta os resultados em termos de sinal dos coeficientes das variaveis explicativas. 

c. Embora o modelo final estimado nao apresente problemas em rela^ao a normalidade dos residuos, a hete- 
rocedasticidade e a multicolinearidade, o mesmo nao pode ser dito em rela^ao a autocorrela^ao dos resi¬ 
duos. Elabore o teste de Durbin-Watson, apresente e discuta o resultado. 

d. Elabore o teste de Breusch-Godfrey (nao dispomvel no SPSS) com defasagens de ordem 1, 3, 4 e 12 e 
discuta os resultados. 
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APENDICE 


Modelos de regressao quantilica 


A) Breve Introdu^ao 

Os modelos de regressao quantilica, em geral, e os modelos de regressao a mediana, em particular, tern por 
objetivo principal estimar os percentis da variavel dependente, condicionais aos valores das variaveis explicativas. 
Enquanto a regressao a mediana expressa a mediana (percentil 50%) da distribui^ao condicional da variavel depen¬ 
dente como uma fun^ao linear das variaveis explicativas, as demais regressoes quantilicas estimam os parametros de 
um modelo com base em qualquer outro percentil desta distribui^ao condicional (25% ou 75%, por exemplo). Se, 
para exemplificar, o pesquisador especificar um modelo de regressao quantilica a 25%, os parametros estimados des- 
creverao o comportamento do 25 fi percentil da distribui^ao condicional da variavel dependente. 

Esses modelos permitem que seja caracterizada toda a distribui^ao condicional da variavel depen¬ 
dente, com base em determinadas variaveis explicativas, ja que sao obtidas diferentes estimates de parame¬ 
tros para percentis distintos, que podem ser interpretados como diferen^as no comportamento da variavel 
dependente frente a altera^oes nas variaveis explicativas nos mais diversos pontos de distribui^ao condicional da 
primeira. Esse fato representa uma importante vantagem desses modelos sobre os modelos de regressao a me¬ 
dia estimados pelo metodo de minimos quadrados ordinarios (MQO) estudado ao longo do capitulo. 

A estima^ao dos modelos de regressao quantilica e similar a estima^ao por minimos quadrados ordinarios, 
porem, enquanto esta ultima minimiza a soma dos quadrados dos residuos, a primeira minimiza a soma pon- 
derada dos residuos absolutos. 

Como a mediana, que e medida de tendencia central, nao e afetada pela presen^a de outliers , ao contrario da 
media, muitos pesquisadores fazem uso de modelos de regressao a mediana quando da presen^a de observa^oes 
extremas ou discrepantes, visto que sao estimados parametros nao sensiveis a existencia de perturba^oes nos da¬ 
dos. Entretanto, vale a pena comentar, conforme discutem Rousseeuw e Leroy (1987), que mesmo os estimado- 
res de modelos de regressao quantilica podem ser sensiveis a existencia de outliers se a distancia leverage dessas 
observa^oes forem consideravelmente elevadas. 

Esta tecnica foi inicialmente proposta por Koenker e Bassett (1978) com o objetivo de estimar os parametros 
do seguinte modelo de regressao: 


sendo: 


! 

Yj=a + b m .X u + b d 2 .X 2i +... + b 6k X ki + u di = X t b e + u 6l 


(12.67) 


?erc 0 (Y l \X l ) = x' r b 0 


( 12 . 68 ) 


em que Perc# ( Y { \ X-) representa o percentil 6 (0 < 0 < 1) da variavel dependente Y, condicional ao vetor de 
variaveis explicativas X\A estima^ao dos parametros da expressao (12.67) pode ser obtida pela solu^ao de um 
problema de programa^ao linear, cuja fun^ao-objetivo e dada pela seguinte expressao: 


S * 

i:Y>X .b 


Y,-X,.b 


+ S (!-«)• 


i:Y<X .b 


Y.-X^b 


= min 


(12.69) 


A estima^ao de modelos de regressao quantilica nao tern como pressuposto a existencia de normalidade dos 
residuos, o que faz com que possam ser utilizados alternativamente aos modelos estimados pelo metodo de minimos 
quadrados ordinarios para os casos em que nem mesmo a transforma^ao de Box-Cox na variavel dependente 
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garante a determina^ao de residuos com distribui^ao aderente a normalidade. Situates como essa podem ocorrer, 
entre outras razoes, quando a variavel dependente apresentar consideravel assimetria em sua distribui^ao. 

Desta forma, esses modelos fazem parte do grupo de estimates que podem ser utilizadas em estudos que 
apresentam variaveis dependentes com distributees assimetricas, e deseja-se investigar os diferentes 
comportamentos das variaveis explicativas para distintos percentis da distribui£ao. 

De maneira resumida, e seguindo Buchinsky (1998), os modelos de regressao quantilica apresentam as seguin- 
tes caracteristicas e vantagens: 

• permitem que os efeitos de cada variavel explicativa sobre o comportamento da variavel dependente va- 
riem entre os percentis; 

• a fun^ao-objetivo (fun^ao de verossimilhan^a) da regressao quantilica representa a minimiza^ao da soma 
ponderada dos residuos absolutos, o que faz com que os parametros estimados nao sejam sensiveis a obser¬ 
vances extremas ou discrepantes; 

• oferecem estimates mais eficientes dos parametros do que aquelas obtidas pelo metodo de minimos qua- 
drados ordinarios quando os termos de erro nao apresentarem distribui£ao normal; 

• podem ser utilizados quando a variavel dependente apresentar distribuinao assimetrica. 

Como, por exemplo, a distribui£ao de renda e intrinsecamente assimetrica para diferentes populates e 
ocorrem varia^oes ao longo dos percentis, os modelos de regressao quantilica podem ser bastante uteis para 
o estudo do comportamento de rendimentos, condicional a determinadas variaveis explicativas. Para esses casos, 
os modelos tradicionais de regressao a media podem ser insatisfatorios, pelo fato de levarem, eventualmente, o 
pesquisador a conclusoes incompletas. 

Na sequencia, apresentaremos um exemplo em que e estimado um modelo de regressao quantilica, tendo co¬ 
mo variavel dependente a renda media familiar de determinados individuos. 

B) Exemplo: Modelo de Regressao Quantilica no Stata 

Faremos uso do banco de dados Renda Quantilica.dta, dada a existencia de outliers multivariados na amos- 
tra, que podem ser identificados por meio da aplica^ao do algoritmo bacon estudado no apendice do Capitulo 
9. Esta base apresenta dados referentes a renda media familiar (R$) e ao tempo de formado (anos) de 400 profis- 
sionais que concluiram o curso de economia em determinada faculdade. Partiremos, portanto, para a estimanao 
dos parametros do seguinte modelo: 

renda i — CL + f3 x .tformado i 

Inicialmente, vamos analisar o histograma da variavel dependente renda , digitando o seguinte comando: 

hist renda, freq 

O grafico gerado encontra-se na Figura 12.102. 



Figura 12.102 Histograma da variavel dependente. 
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A partir desse histograma, podemos perceber a existencia de certa assimetria, que representa um primeiro in- 
dicio favoravel a estima^ao de um modelo de regressao quantilica. 

Na sequencia, podemos digitar o seguinte comando, que ira gerar o grafico da Figura 12.103. 

qplot renda 



Figura 12.103 Grafico de percent's da variavel dependente. 


Este grafico mostra os valores de cada percentil da variavel dependente renda. Por meio do comando sum 
renda, detail, cujos outputs nao sao apresentados aqui, podemos verificar que os valores dos quartis da variavel 
renda sao iguais a R$ 6.250,00 (percentil 25%), R$ 7.500,00 (mediana) e R$ 8.670,00 (percentil 75%). 

Embora tambem nao apresentado aqui, e importante mencionar que os termos de erro gerados a partir da 
estima^ao de um modelo de regressao por mmimos quadrados ordinarios nao apresentam aderencia a normali- 
dade, e tal fato tampouco acontece na estima^ao deste mesmo modelo fazendo-se uso da transfer ma^ao de Box- 
Cox na variavel dependente, o que novamente favorece a estima^ao de um modelo de regressao quantilica para 
os dados do nosso exemplo. Um pesquisador mais curioso podera comprovar esses fatos, com base nos conceitos 
estudados ao longo do capitulo. 

Incialmente, vamos estimar os parametros de um modelo de regressao quantilica com percentil 50% (regressao 
a mediana), digitando o seguinte comando: 

qreg renda tformado, quantile(0.50) 

em que o comando qreg estima um modelo de regressao quantilica, sendo o termo quantile (0.50) referente 
a um modelo de regressao a mediana, que poderia ter sido omitido neste caso por ser o proprio padrao do co¬ 
mando qreg no Stata. Os outputs gerados encontram-se na Figura 12.104. 


. qreg renda tformado, quantile(0.50) 



Iteration 

1: WLS sum of 

weighted deviations = 

466946.48 


Iteration 

1: sum of abs. 

weighted deviations = 

467240 


Iteration 

2: sum of abs. 

weighted deviations = 

464146 


Iteration 

3: sum of abs. 

weighted deviations = 

464040 


Median regression 


Number of obs = 

400 

Raw sum 

of deviations 

491360 (about 7500) 



Min sum 

of deviations 

464040 

Pseudo R2 = 

0.0556 


renda | 

Coef. 

Std. Err. 

t 

P>Jt| 

[95% Conf. 

Interval] 

tformado | 

273.3333 

48.54141 

5.63 

0.000 

177.9037 

368.7629 

_cons | 

5243.333 

395.699 

13.25 

0.000 

4465.412 

6021.255 


Figura 12.104 Outputs da regressao a mediana no Stata. 
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E importante mencionar que um pesquisador ainda mais curioso podera obter esses mesmos outputs por meio 
do arquivo Renda Quantilica Mmimos Residuos Absolutos.xls, fazendo uso da ferramenta Solver do 
Excel, conforme padrao tambem adotado ao longo do capitulo. Embora nao exposto aqui, neste arquivo o pes¬ 
quisador tambem tera a op^ao de determinar o percentil desejado para a estima^ao dos parametros de qualquer 
modelo de regressao quantilica. 

Podemos verificar (Figura 12.104) que todos os parametros estimados sao estatisticamente diferentes de zero, 
a 95% de confian^a, e o modelo obtido pode ser escrito da seguinte forma: 

= 5.243,333 + 273,333 . tformado { 

Neste sentido, a mediana esperada da renda media familiar de determinado economista com 7 anos de for- 
mado pode ser obtida da seguinte forma: 


(mediana)i = 5.243,333 + 273,333. (7) = R$ 7.156,667 

Desta forma, os parametros de um modelo de regressao quantilica podem ser interpretados por meio da de- 
rivada parcial do percentil condicional em fun^ao de determinada variavel explicativa. 

Os outputs tambem mostram que a soma absoluta das diferen^as entre os valores reais da renda media fami¬ 
liar e o valor de sua mediana nao condicional (R$ 7.500,00) e igual a 491.360. Em outras palavras, temos que: 

400 

£ \rendai - 7.500,00| = 491.360 

i =1 

Ja a soma ponderada dos residuos absolutos para a expressao geral obtida (distribui^ao condicional da varia¬ 
vel renda como fun^ao linear da variavel tformado) e igual a 464.040, conforme tambem podemos verificar pelo 
mesmo arquivo em Excel. 

Sendo assim, o pseudo R 2 apresentado nos outputs pode ser calculado da seguinte forma: 


pseudo R 


2 


464.040 

491.360 


= 0,0556 


cuja utilidade e bastante limitada e restringe-se a casos em que o pesquisador tiver interesse em comparar dois 
ou mais modelos distintos. 

Se o pesquisador tambem desejar estimar os parametros dos modelos de regressao quantilica, por exemplo, 
com percentis 25% e 75%, a fim de compara-los com os obtidos pela modelagem de regressao a mediana e tam¬ 
bem com aqueles obtidos por uma estima^ao por mmimos quadrados ordinarios, podera digitar a seguinte se- 
quencia de comandos: 

* REGRESSAO POR MINIMOS QUADRADOS ORDINARIOS 
quietly reg renda tformado 

estimates store MQO 

* REGRESSAO QUANTILICA (PERCENTIL 25%) 
quietly qreg renda tformado, quantile(0.25) 
estimates store QREG25 


* REGRESSAO A MEDIANA (PERCENTIL 50%) 
quietly qreg renda tformado, quantile(0.50) 
estimates store QREG50 

* REGRESSAO QUANTILICA (PERCENTIL 75%) 
quietly qreg renda tformado, quantile(0.75) 
estimates store QREG75 


estimates table MQO QREG25 QREG50 QREG75, se 
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A Figura 12.105 apresenta os parametros estimados em cada modelo. 


. * REGRESSAO POR MINIMOS QUADRADOS ORDINARIOS 
. quietly reg renda tformado 
. estimates store MQO 

. * REGRESSAO QUANTILICA (PERCENTIL 25%) 

. quietly qreg renda tformado, quantile(0.25) 

. estimates store QREG25 

. * REGRESSAO A MEDIANA (PERCENTIL 50%) 

. quietly qreg renda tformado, quantile(0.50) 

. estimates store QREG50 

. * REGRESSAO QUANTILICA (PERCENTIL 75%) 

. quietly qreg renda tformado, quantile(0.75) 

. estimates store QREG75 

. estimates table MQO QREG25 QREG50 QREG75, se 


_ 

Variable | 

MQO 

QREG25 

QREG50 

QREG75 

tformado | 

197.58258 

250 

273.33333 

80 

1 

35.529997 

27.482074 

48.541413 

70.509666 

cons | 

5932.1141 

4360 

5243.3334 

7960 

1 

289.87448 

223.97567 

395.69901 

576.43629 

| legend: b/se | 


Figura 12.105 Parametros estimados em cada modelo e respectivos erros-padrao. 

A partir dos outputs consolidados na Figura 12.105, e possivel percebermos que existem discrepancias entre 
os parametros estimados por minimos quadrados ordinarios e os obtidos pelas regressoes quantilicas. Podemos 
inclusive verificar que os erros-padrao dos parametros (valores situados abaixo dos respectivos parametros) sao 
menores para a regressao quantilica com percentil 25%, o que reflete maior precisao da estima^ao em torno desse 
percentil para a distribui^ao condicional da variavel dependente. 

A sequencia de comandos a seguir permite inclusive que visualizemos, por meio de graficos, as diferen^as en¬ 
tre os estimadores obtidos pelas regressoes quantilicas e os obtidos por minimos quadrados ordinarios: 

quietly qreg renda tformado 

grqreg, cons ci ols olsci 

Os graficos gerados, que se encontram na Figura 12.106, apresentam os parametros OC e /} estimados, nao res- 
tritos apenas aos percentis 25%, 50% e 75%, com respectivos intervalos de confian^a a 95% (termo ci). Alem dis- 
so, enquanto o termo cons permite que seja elaborado o grafico do intercepto, os termos ols e olsci incluem 
nos graficos os parametros estimados por minimos quadrados ordinarios e os respectivos intervalos de confian^a, 
tambem a 95%. 

Por meio desses graficos, comprovamos que os parametros estimados por minimos quadrados ordinarios e os 
respectivos intervalos de confian^a nao variam com os percentis, ao contrario daqueles estimados pelos modelos 
de regressao quantilica, e, conforme discutimos, esse fato representa uma das principais vantagens desses modelos 
sobre os modelos de regressao a media, visto que permite que seja caracterizada toda a distribui^ao condicional 
da variavel dependente em fun^ao de determinada variavel explicativa, fornecendo uma visao mais ampla da re- 
la^ao entre elas e nao restringindo a analise a media condicional. 

Para os dados do nosso exemplo, podemos inclusive verificar que o parametro /? correspondente a variavel 
tformado deixa de ser estatisticamente diferente de zero, ao nivel de confian^a de 95%, para percentis mais ele- 
vados, visto que seu intervalo de confian^a passa a conter o zero. Para a verifica^ao desse fato, basta que o pes- 
quisador digite, por exemplo, o comando qreg renda tformado, quantile (0.80) e analise a estatistica t do 
referido parametro. 

E importante mencionar que, em outros casos, podem inclusive ocorrer altera^oes de sinal de determinado 
parametro /3 a medida que variam os percentis, o que propicia ao pesquisador uma analise mais completa acer- 
ca das diferen^as no comportamento da variavel dependente frente a altera^oes em cada variavel explicativa nos 
mais diversos pontos da distribui^ao condicional da primeira. 
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Figura 12.106 Parametros estimados para regressoes quantilicas e por minimos 
quadrados ordinarios, com respectivos intervalos de confian^a. 


Para efeitos didaticos, vamos elaborar um grafico que apresenta os ajustes lineares entre os valores previstos da 
variavel dependente, gerados pelos modelos de regressao por minimos quadrados ordinarios e quantilicos com 
percentis 25%, 50% e 75%, e a variavel explicativa. O intuito e comparar esses ajustes lineares. Para tanto, pode- 
mos digitar a seguinte sequencia de comandos: 

* REGRESSAO POR MINIMOS QUADRADOS ORDINARIOS 
quietly reg renda tformado 

predict ymqo 

* REGRESSAO QUANTILICA (PERCENTIL 25%) 
quietly qreg renda tformado, quantile(0.25) 
predict yqreg25 

* REGRESSAO A MED I ANA (PERCENTIL 50%) 
quietly qreg renda tformado, quantile(0.50) 
predict yqreg50 

* REGRESSAO QUANTILICA (PERCENTIL 75%) 
quietly qreg renda tformado, quantile(0.75) 
predict yqreg75 

graph twoway scatter renda tformado || lfit ymqo tformado || lfit yqreg25 
tformado || lfit yqreg50 tformado || lfit yqreg75 tformado ||, legend(label(2 
"MQO") label (3 "Percentil 25”) label (4 "Percentil 50") label (5 "Percentil 75")) 

O grafico gerado esta na Figura 12.107. 
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Figura 12.107 Comportamento da variavel dependente em fungao da variavel explicativa tformodo, 
com destaque para as estimates MQO e quantilicas. 

Esse grafico apresenta a renda media familiar ajustada por sua media e para os percentis 25%, 50% e 75%, em 
fungao do tempo de formado do individuo. Embora seja possivel evidenciar, por meio deste exemplo, o cres- 
cimento da renda media familiar em todos os percentis a medida que o tempo de formado aumenta, podemos 
verificar a existencia de diferen^as entre o ajuste a media (MQO) e o ajuste a mediana (percentil 50%), fato que 
ocorre em razao da existencia de outliers e da influencia que esses exercem sobre a estimagao dos parametros por 
minimos quadrados ordinarios. Nesse sentido, o pesquisador precisa estar sempre atento a sensibilidade dos para¬ 
metros e existencia de observagoes extremas ou discrepantes na base de dados, que podem fazer com que deter- 
minado metodo de estimagao seja preferivel. 

Em resumo, e conforme discutimos inicialmente, os modelos de regressao quantilica sao mais adequados pa¬ 
ra o estudo da relagao entre as variaveis apresentadas neste exemplo, visto que tornam possivel a analise, para os 
diversos percentis, dos efeitos da variavel tformado sobre o comportamento da variavel renda, propiciam a estima- 
gao de parametros nao sensiveis a existencia de outliers e distribuigao assimetrica da variavel dependente, e pos- 
sibilitam a determinagao de um modelo sem que haja a necessidade de que os residuos apresentem distribui^ao 
normal. 











Modelos de Regressao Logfstica 
Binaria e Multinomial 


Nos compos da observagao, o chance favorece open as a mente preparada. 

Louis Pasteur 


Ao final deste capitulo, voce tera concludes de: 

• Estabelecer as circunstancias a partir das quais os modelos de regressao logfstica binaria e multinomial 
podem ser utilizados. 

• Diferenciar a probabilidade de ocorrencia de urn evento da chance de ocorrencia de urn evento. 

• Entender a estimagao pelo metodo de maxima verossimilhanpa. 

• Avaliar os resultados dos testes estatfsticos pertinentes aos modelos logfsticos. 

• Elaborar intervalos de confianqa dos parametros do modelo para efeitos de previsao. 

• Elaborar a analise de sensibilidade e entender os conceitos de cutoff, eficiencia global do modelo, 
sensitividade e especificidade. 

• Interpretar a curva de sensibilidade e a curva ROC 

• Elaborar modelos de regressao logfstica binaria e multinomial em Microsoft Office Excel®, Stata Statistical 
Software® e IBM SPSS Statistics Software® e interpretar seus resultados. 


13.1. INTRODUgAO 

Os modelos de regressao logistica, embora bastante uteis e de facil aplicaqao, ainda sao pouco utilizados em 
muitas areas do conhecimento humano. Embora o desenvolvimento de softwares e o incremento da capacidade 
de processamento dos computadores tenham propiciado a sua aplicaqao de forma mais direta, muitos pesquisa- 
dores ainda desconhecem as suas utilidades e, sobretudo, as condiqoes para que seu uso seja correto. 

Diferentemente da tradicional tecnica de regressao estimada por meio de metodos de mmimos quadrados, 
em que a variavel dependente apresenta-se de forma quantitativa e devem ser obedecidos alguns pressupostos, 
conforme estudamos no capitulo anterior, as tecnicas de regressao logistica sao utilizadas quando o fenomeno a 
ser estudado apresenta-se de forma qualitativa e, portanto, representado por uma ou mais variaveis dummy , de- 
pendendo da quantidade de possibilidades de resposta (categorias) desta variavel dependente. 

Imagine, por exemplo, que um pesquisador tenha interesse em avaliar a probabilidade de ocorrencia de in- 
farto em executivos do mercado financeiro, com base em suas caracteristicas fisicas (peso, cintura abdominal), 
em seus habitos alimentares e em seus habitos de saude (exercicios fisicos, tabagismo). Um segundo pesquisador 
deseja avaliar a chance de consumidores que adquirem bens duraveis num determinado periodo tornarem-se 
inadimplentes, em funqao da renda, do estado civil e da escolaridade de cada um deles. Note que o infarto ou a 
inadimplencia sao as variaveis dependentes nos dois casos e seus eventos podem ou nao ocorrer, em funqao das 
variaveis explicativas inseridas nos respectivos modelos e, portanto, sao variaveis qualitativas dicotomicas que re- 
presentam cada um dos fenomenos em estudo. Nosso intuito e o de estimar a probabilidade de ocorrencia 
destes fenomenos e, para tanto, faremos uso da regressao logistica binaria. 

Imagine ainda que um terceiro pesquisador tenha o interesse em estudar a probabilidade de obtenqao de cre- 
dito por parte de empresas de micro e pequeno porte, em funqao de suas caracteristicas financeiras e operacionais. 
Sabe-se que cada empresa podera receber credito integral sem restri^ao, credito com restriqao ou nao receber 
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credito algum. Neste caso, a variavel dependente que representa o fenomeno e tambem qualitativa, porem ofe- 
rece tres possibilidades de resposta (categorias), e portanto, para estimarmos as probabilidades de ocorrencia das 
alternativas propostas, deveremos fazer uso da regressao logistica multinomial. 

Logo, se um fenomeno em estudo se apresentar por meio de apenas e tao somente duas categorias, sera re- 
presentado por apenas uma unica variavel dummy , em que a primeira categoria sera a de referenda e indicara o 
nao evento de interesse ( dummy = 0) e a outra categoria indicara o evento de interesse (dummy = 1), e estaremos 
lidando com a tecnica de regressao logistica binaria. Por outro lado, se o fenomeno em estudo apresentar mais 
de duas categorias como possibilidades de ocorrencia, precisaremos inicialmente definir a categoria de referenda 
para, a partir dai, elaborar a tecnica de regressao logistica multinomial. 

Ao se ter uma variavel qualitativa como fenomeno a ser estudado, fica inviavel a estima^ao do modelo por 
meio do metodo de minimos quadrados ordinarios estudado no capitulo anterior, uma vez que esta variavel de¬ 
pendente nao apresenta media e variancia e, portanto, nao ha como minimizar a somatoria dos termos de erro ao 
quadrado sem que seja feita uma incoerente pondera^ao arbitraria. Como a insergao desta variavel dependente 
em softwares de modelagem e feita com base na digita^ao de valores que representam cada uma das possibilidades 
de resposta, e comum que haja um esquecimento sobre a defini^ao dos rotulos ( labels ) das categorias correspon- 
dentes a cada um dos valores digitados e, portanto, e possivel que um pesquisador desavisado ou iniciante estime 
o modelo por meio da regressao por minimos quadrados, inclusive obtendo outputs, uma vez que o software in- 
terpretara aquela variavel dependente como sendo quantitativa. Isso e um erro grave, porem infelizmen- 
te mais comum do que parece! As tecnicas de regressao logistica binaria e multinomial sao elaboradas com 
base na estima^ao por maxima verossimilhan^a, a ser estudada nas se^oes 13.2.1 e 13.3.1, respectivamente. 

Analogamente ao que foi discutido no capitulo anterior, os modelos de regressao logistica sao definidos com 
base na teoria subjacente e na experiencia do pesquisador, de modo que seja possivel estimar o modelo desejado, 
analisar os resultados obtidos por meio de testes estatisticos e elaborar previsoes. 

Neste capitulo, trataremos dos modelos de regressao logistica binaria e multinomial, com os seguintes objeti- 
vos: (1) introduzir os conceitos sobre regressao logistica; (2) apresentar a estima^ao por maxima verossimilhan^a; 
(3) interpretar os resultados obtidos e elaborar previsoes; e (4) apresentar a aplica^ao das tecnicas em Excel, Stata 
e SPSS. Inicialmente, sera elaborada a solu^ao em Excel de um exemplo concomitantemente a apresenta^ao dos 
conceitos e a sua resolu^ao manual. Apos a introdugao dos conceitos serao apresentados os procedimentos para a 
elabora^ao das tecnicas no Stata e no SPSS, mantendo o padrao adotado no livro. 

13.2. O MODELO DE REGRESSAO LOGISTICA BINARIA 

A regressao logistica binaria tern como objetivo principal estudar a probabilidade de ocorrencia de um evento de- 
finido por Y que se apresenta na forma qualitativa dicotomica (Y= 1 para descrever a ocorrencia do evento de inte¬ 
resse e Y= 0 para descrever a ocorrencia do nao evento), com base no comportamento de variaveis explicativas. Desta 
forma, podemos definir um vetor de variaveis explicativas, com respectivos parametros estimados, da seguinte forma: 

Z i =a + Pv X li +P 2 - X 2i +•■•• + Pk- X ki (13.1) 

em que Z e conhecido por logito, a representa a constante, /3. (j = 1, 2, ..., fe) sao os parametros estimados de 
cada variavel explicativa, X. sao as variaveis explicativas (metricas ou dummies) e o subscrito i representa cada 
observa^ao da amostra (i = 1, 2, n, em que n e o tamanho da amostra). E importante ressaltar que Z nao re¬ 
presenta a variavel dependente, denominada por Y, e o nosso objetivo neste momento e definir a expressao da 
probabilidade p. de ocorrencia do evento de interesse para cada observa^ao, em fun^ao do logito Z., ou seja, em 
fungao dos parametros estimados para cada variavel explicativa. Para tanto, devemos definir o conceito de chance 
de ocorrencia de um evento, tambem conhecida por odds, da seguinte forma: 

chance (odds) = — (13.2) 

1 ~Pi 

Imagine que tenhamos o interesse em estudar o evento “aprova^ao na disciplina de Calculo”. Se, por exemplo, 
a probabilidade de um determinado aluno ser aprovado nesta disciplina for de 80%, a sua chance de ser aprova- 
do sera de 4 para 1 (0,8 / 0,2 = 4). Se a probabilidade de outro aluno ser aprovado na mesma disciplina for de 
25%, dado que tern estudado muito menos que o primeiro aluno, a sua chance de ser aprovado sera de 1 para 3 
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(0,25 / 0,75 = l/3).Apesar de estarmos acostumados cotidianamente a usar o termo chance como sinonimo de 
probabilidade, seus conceitos sao diferentes! 

A regressao logistica binaria define o logito Z como o logaritmo natural da chance, de modo que: 


de onde vem que: 


1 n[chame Y _^ — Z. 

( \ 


In 


Pi 




= z. 


(13.3) 

(13.4) 


Como o nosso intuito e definir uma expressao para a probabilidade de ocorrencia do evento em estudo em 
funfao do logito, podemos matematicamente isolar p. a partir da expressao (13.4), da seguinte maneira: 


-Pi— = e z ‘ (13.5) 

1 ~Vi 

Pi =( 1 -Pi)-e Zt (13.6) 


p i .(l + e z ') = e z ‘ 


E, portanto, temos que: 

Probabilidade de ocorrencia do evento: 


z, 
e ' 


Pi 1 + e z ‘ 1 + e~ Zi 


Probabilidade de ocorrencia do nao evento: 


l—o.=l — 


l + c z ‘ 1 + e Zi 


(13.7) 


(13.8) 


(13.9) 


Obviamente, a soma das expressoes (13.8) e (13.9) e igual a 1. 

A partir da expressao (13.8), podemos elaborar uma tabela com valores de p em fun^ao dos valores de Z. 
Como Z varia de -oo a +oo ? iremos, apenas para efeitos didaticos, utilizar valores inteiros entre -5 e +5. A 
Tabela 13.1 traz estes valores. 


Tabela 13.1 Probabilidade de ocorrencia de um evento (p) em fungao do logito Z. 


1 


J »«-. . - z , 

z i 

0,0067 

-5 

0,0180 

-4 

0,0474 

-3 

0,1192 

-2 

0,2689 

-1 

0,5000 

0 

0,7311 

1 

0,8808 

2 

0,9526 

3 

0,9820 

4 

0,9933 

5 
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A partir daTabela 13.1, podemos elaborar um grafico de p =f(Z ), como o apresentado na Figura 13.1. Por 
meio deste grafico, podemos verificar que as probabilidades estimadas, em fun^ao dos diversos valores assumidos 
por Z, situam-se entre 0 e 1, o que foi garantido quando se impos que o logito fosse igual ao logaritmo natural da 
chance. Assim, dados os parametros estimados do modelo e os valores de cada uma das variaveis explicativas para 
uma dada observa^ao i , podemos calcular o valor de Z. e, por meio da curva logistica apresentada na Figura 13.1 
(tambem conhecida por curva S , ou sigmoide), estimar a probabilidade de ocorrencia do evento em estudo para 
esta determinada observa^ao i. 

A partir das expressoes (13.1) e (13.8), podemos definir a expressao geral da probabilidade estimada de ocor¬ 
rencia de um evento que se apresenta na forma dicotomica para uma observa^ao i da seguinte forma: 


Pi = 


1 

l + e -(<x+Pi-X u +p 2 .x 2i +...+p k .x ki ) 


(13.10) 


O que a regressao logistica binaria estima, portanto, nao sao os valores previstos da variavel dependente, mas, 
sim, a probabilidade de ocorrencia do evento em estudo para cada observa^ao. Partiremos, entao, para a estimagao 
propriamente dita dos parametros do logito, por meio da apresenta^ao de um exemplo elaborado inicialmente 
em Excel. 



Figura 13.1 Grafico de p = f(Z). 


13.2.1. Estima^ao do modelo de regressao logistica binaria por maxima verossimilhan^a 

Apresentaremos os conceitos pertinentes a estima^ao por maxima verossimilhan^a por meio de um 
exemplo similar ao desenvolvido ao longo do capitulo anterior. Entretanto, agora a variavel dependente sera 
qualitativa e dicotomica. 

Imagine que o nosso curioso professor, que ja explorou consideravelmente os efeitos de determinadas vari¬ 
aveis explicativas sobre o tempo de deslocamento de um grupo de alunos ate a escola, por meio da tecnica de 
regressao multipla, tenha agora o interesse em investigar se estas mesmas variaveis explicativas influenciam a pro¬ 
babilidade de um aluno chegar atrasado a aula. Ou seja, o fenomeno em questao a ser estudado apresenta somente 
duas categorias (chegar ou nao atrasado) e o evento de interesse refere-se a chegar atrasado. 

Sendo assim, o professor elaborou uma pesquisa com 100 alunos da escola onde leciona, questionando se 
cada um deles chegou ou nao atrasado naquele dia. Perguntou tambem sobre a distancia percorrida no trajeto 
(em quilometros), o numero de semaforos pelos quais cada um passou, o periodo em que foi realizado o trajeto 
(manha ou tarde) e como cada um se considera em termos de perfil ao volante (calmo, moderado ou agressivo). 
Parte do banco de dados elaborado encontra-se naTabela 13.2. 




Modelos de Regressao Logistica Binaria e Multinomial 615 


Tabela 13.2 Exemplo: atraso (sim ou nao) x distancia percorrida, quantidade de semaforos, 
periodo do dia para o trajeto ate a escola e perfil ao volante. 


Estudante 

Chegou atrasado 
a escola 

(V 

Distancia percorrida ate 
a escola (quilometros) 

<*u> 

Quantidade 
de semaforos 

< x ») 

Periodo do dia 

< X 3,) 

Perfil ao volante 

( X J 

Gabriela 

Nao 

12,5 

7 

manha 

calmo 

Patricia 

Nao 

13,3 

10 

manha 

calmo 

Gustavo 

Nao 

13,4 

8 

manha 

moderado 

Leticia 

Nao 

23,5 

7 

manha 

calmo 

Luiz Ovidio 

Nao 

9,5 

8 

manha 

calmo 

Leonor 

Nao 

13,5 

10 

manha 

calmo 

Dalila 

Nao 

13,5 

10 

manha 

calmo 

Antonio 

Nao 

15,4 

10 

manha 

calmo 

Julia 

Nao 

14,7 

10 

manha 

calmo 

Mariana 

Nao 

14,7 

10 

manha 

calmo 


Filomena 

Sim 

12,8 

11 

tarde 

agressivo 


Estela 

Sim 

1,0 

13 

manha 

calmo 


Para a variavel dependente, como o evento de interesse refere-se a chegar atrasado , esta categoria apresentara 
valores iguais a 1, ficando a categoria nao chegar atrasado com valores iguais a 0. 

Seguindo o que foi definido no capitulo anterior em relagao as variaveis explicativas qualitativas, a categoria 
de referenda da variavel correspondente ao periodo do dia sera tarde , ou seja, as celulas do banco de dados com 
esta categoria assumirao valores iguais a 0, ficando as celulas com a categoria manha com valores iguais a l.Ja a 
variavel perfil ao volante devera ser transformada em duas dummies (variaveis perf\l2 para a categoria moderado e per- 
fil3 para a categoria agressivo), ja que definiremos a categoria calmo como sendo a referenda. 

Desta forma, a Tabela 13.3 apresenta parte do banco de dados final a ser utilizado para a estima^ao do modelo 
de regressao logistica binaria. 

O banco de dados completo pode ser acessado por meio do arquivo Atrasado.xls. 


Tabela 13.3 Substituigao das categorias das variaveis qualitativas pelas respectivas variaveis dummy. 


Estudante 

Chegou atrasado a escola 
(Dummy Sim = 1; 

Nao = 0) 

(V) 

Distancia percor¬ 
rida ate a escola 
(quilometros) 

<x„) 

Quantidade 
de semaforos 

<**> 

Periodo 
do dia 
Dummy per 

( X J 

Perfil ao 
volante 
Dummy perfil2 

(XJ 

Perfil ao 
volante 
Dummy perfil3 

( X s) 

Gabriela 

0 

12,5 

7 

1 

0 

0 

Patricia 

0 

13,3 

10 

1 

0 

0 

Gustavo 

0 

13,4 

8 

1 

1 

0 

Leticia 

0 

23,5 

7 

1 

0 

0 

Luiz Ovidio 

0 

9,5 

8 

1 

0 

0 

Leonor 

0 

13,5 

10 

1 


0 

Dalila 

0 

13,5 

10 

1 

0 

0 

Antonio 

0 

15,4 

10 

1 

0 

0 

Julia 

0 

14,7 

10 

1 

0 

0 

Mariana 

0 

14,7 

10 

1 

0 

0 


Filomena 

1 

12,8 

11 

0 

0 

1 


Estela 

1 

1,0 

13 

1 

0 

0 
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Desta forma, o logito cujos parametros queremos estimar e definido da seguinte maneira: 

Z, =a+A .dist { + ji 2 .sem i + /J 3 .per { + fi 4 .perfil2 i + (3 5 .perfil3 { 
e a probabilidade estimada de que um determinado estudante chegue atrasado pode ser escrita da seguinte forma: 

= _1_ 

Pi | e~{ a +Pl■dist i +fi 2 -sem i +fi ? ).peri+fi 4 .perfH2^ft 5 .perfil^i) 

Como nao faz sentido definirmos o termo de erro para cada observa^ao, dado que a variavel dependente 
apresenta-se na forma dicotomica, nao ha como estimarmos os parametros da equa^ao de probabilidade por meio 
da minimiza^ao da somatoria dos quadrados dos residuos, como fizemos quando da elabora^ao das tecnicas tra- 
dicionais de regressao. Neste caso, portanto, faremos uso da fun^ao de verossimilhan^a a partir da qual sera elabo- 
rada a estima^ao por maxima verossimilhan^a. Segundo Sharma (1996), a estima^ao por maxima verossimilhan^a 
e a tecnica mais popular de estima^ao dos parametros de modelos de regressao logistica. 

Em decorrencia deste fato, e importante inclusive mencionar, com rela^ao aos pressupostos estudados para os mo¬ 
delos de regressao estimados por minimos quadrados ordinarios, que o pesquisador deve se preocupar apenas com o 
pressuposto da ausencia de multicolinearidade das variaveis explicativas quando da estima^ao de modelos de regres¬ 
sao logistica. 

Na regressao logistica binaria, a variavel dependente segue uma distribui^ao de Bernoulli, ou seja, o fato 
de determinada observa^ao i ter incidido ou nao no evento de interesse pode ser considerado como um ensaio de 
Bernoulli, em que a probabilidade de ocorrencia do evento bp. e a probabilidade de ocorrencia do nao evento e 
(1 — p), conforme estudamos no Capitulo 5. De maneira geral, analogamente a expressao (5.25) daquele capitu- 
lo, podemos escrever que a probabilidade de ocorrencia de Y podendo Y ser igual a 1 ou igual a 0, e dada por: 

p( Y i) = P?-( 1 -ptf' Yl (13.11) 

Para uma amostra com n observa^oes, podemos definir a fun^ao de verossimilhan^a (likelihood function) como 
sendo: 


L =fi[pHi- P rl 

i=i 

de onde vem, com base nas expressoes (13.8) e (13.9), que: 


i-n 


Vi 


1 + C 


f 1 ^ 


1 + e Zi ) 


(13.12) 


(13.13) 


Como, na pratica, e mais conveniente se trabalhar com o logaritmo da fun^ao de verossimilhan^a, podemos 
chegar a seguinte fun^ao, tambem conhecida por log likelihood function: 


. f 


( e Z> \ 


- 

’ 11] 

H $ 

ii 

ft)i” 

e 

+ 

(l-X)ln 

v ! + e Zl , 

ll + e Z ' JJ 


(13.14) 


E agora cabe uma pergunta: Quais os valores dos parametros do logito que fazem com que o valor 
de LL da expressao (13.14) seja maximizado? Esta importante questao e a chave central para a elabora^ao 
da estima^ao por maxima verossimilhan^a (ou maximum likelihood estimation) em modelos de regressao logistica 
binaria, e pode ser respondida com o uso de ferramentas de programa^ao linear, a fim de que sejam estimados os 
parametros a , )8 , jS 2 ,..., /3 fe com base na seguinte fun^ao-objetivo: 




ir 

( z f ^ 



‘ 111 

p)J- 

e 

+ 


(l + e z ‘ , 

(l + e Zi JJJ 


' = max 


(13.15) 
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Iremos resolver este problema com o uso da ferramenta Solver do Excel e utilizando os dados do nosso 
exemplo. Para tanto, devemos abrir o arquivo Atrasad 0 MaximaVer 0 ssimilhan 9 a.xls, que servira de auxilio 
para o calculo dos parametros. 

Neste arquivo, alem da variavel dependente e das variaveis explicativas, foram criadas tres novas variaveis, que 
correspondem, respectivamente, ao logito Z, a probabilidade de ocorrencia do evento de interesse p. e ao loga- 
ritmo da fungao de verossimilhan^a LL para cada observa^ao. ATabela 13.4 mostra parte dos resultados quando 
os parametros a , j3 v /3 V e /? 5 forem iguais a 0. 

A Figura 13.2 apresenta parte das observa^oes presentes no arquivo Atrasad 0 MaximaVer 0 ssimilhan 9 a.xls, 
ja que algumas delas foram aqui ocultadas por conta do numero total ser igual a 100. 


Tabela 13.4 Calculo de LL quando a = /3 1 = /3 2 = /3 3 = /3 4 = /3 5 = 0. 


Estudante 

Y 

X« 

X„. 

2 i 

X v 

3t 

X.. 

4 1 

*5, 


Pi 

IX, 

Gabriela 

0 

12,5 

7 

1 

0 

0 

0 

0,5 

-0,69315 

Patricia 

0 

13,3 

10 

1 

0 

0 

0 

0,5 

-0,69315 

Gustavo 

0 

13,4 

8 

1 

1 

0 

0 

0,5 

-0,69315 

Leticia 

0 

23,5 

7 

1 

0 

0 

0 

0,5 

-0,69315 

Luiz Ovldio 

0 

9,5 

8 

1 

0 

0 

0 

0,5 

-0,69315 

Leonor 

0 

13,5 

10 

1 

0 

0 

0 

0,5 

-0,69315 

Dalila 

0 

13,5 

10 

1 

0 

0 

0 

0,5 

-0,69315 

Antonio 

0 

15,4 

10 

1 

0 

0 

0 

0,5 

-0,69315 

Julia 

0 

14,7 

10 

1 

0 

0 

0 

0,5 

-0,69315 

Mariana 

0 

14,7 

10 

1 

0 

0 

0 

0,5 

-0,69315 


Filomena 

1 

12,8 

11 

0 

0 

1 

0 

0,5 

-0,69315 


Estela 

1 

1,0 

13 

1 

0 0 

0 

0,5 

-0,69315 

Somatoria 

1=1 

-69,31472 


F. 

A 

B 

e 

D 

E 

F 

e 

H 

1 

J 

K i L | M 1 

1 1 

Estudante 

Atrasado (Y) 

Distancia(Xi) 

Semaforos (X 2 ) 

PerifMlofXj) 

Petfi!2 (X*) 

Perfil3 (Xj) 

Z. 

Pi 

IU 


I 2 

Gabriels 

0 

12.5 

7 

1 

0 

0 

0 

0.5 

-0.69315 

; 3 

Patricia 

0 

13.3 

10 

1 

0 

0 

0 

0.5 

-0,69315 

a. 1 0,0000 | 

UJ 

Gustavo 

G 

13,4 

8 

1 

1 

0 

0 

0,5 

-0,69315 


j 5 

Leticia 

0 

23.5 

7 

1 

0 

0 

0 

0.5 

-0,69315 

Pi | njmo | 

! 6 

Luiz Ovfdio 

0 

9,5 

8 

1 

0 

0 

0 

0,5 

-0,69315 


7 

Leonor 

0 

13,5 

10 

1 

0 

0 

0 

0,5 

-0.69315 

p 2 | 0.0000 | 

i 8 

Dalila 

0 

13.5 

10 

1 

0 

0 

0 

0,5 

-0,69315 


9 

Antdnio 

0 

15.4 

10 

1 

0 

0 

0 

0.5 

-0.69315 

& | 0,0000 | 

i 10 

Julia 

6 

14.7 

10 

1 

0 

c 

0 

0.5 

-0.69315 


} 11 

Mariana 

0 

14.7 

10 

1 

0 

0 

0 

0,5 

-0,69315 

P4 | 0,0000 | 

12 

Roberto 

0 

13.7 

10 

1 

0 

0 

0 

0,5 

-0,69315 


1 13 

Renata 

0 

It 

10 

1 

0 

0 

0 

0.5 

-0,69315 

Ps 1 0,0000 | 

1 14 

Guilherme 

0 

18,4 

10 

1 

0 

0 

0 

0.5 

-0.69315 


111 

Rodrigo 

0 

11 

11 

1 

1 

0 

0 

0.5 

•0.69315 

j 18 

Giulia 

0 

11 

10 

1 

0 

0 

0 

0.5 

-0,69315 

117 

Felipe 

0 

12 

7 

1 

1 

0 

0 

0.5 

-0.69315 

I 18 

Karina 

0 

14 

10 

1 

o' 

1 

0 

0.5 

-0,69315 

1 19 

[Pietro 

0 

11.2 

10 

1 

0 

0 

0 

0.5 

-0.69315 

( 20 

Cecilia 

0 

13 

10 

1 

0 

0 

0 

0.5 

-0,69315 

i 21 

Giseie 

0 

12 

6 

1 

0 

0 

0 

0.5 

-0.69315 

I 22 

Elaine 

0 

17 

10 

1 

0 

1 

0 

0,5 

-0,69315 

23 

Kamal 

0 

12 

9 

1 

0 

0 

0 

0.5 

-0.69315 

24 

Rodolfo 

0 

12 

10 

1 

1 

0 

a 

0.5 

-0.69315 

25 

_ 

0 

13 

5 

0 

0 

0 

0 

0.5 

-0,69315 

26 

Vivian 

0 

11,7 

10 

0 

0 

0 

0 

0.5 

-0.69315 

27 

Danielle 

G 

17 

10 

0 

0 

0 

0 

0.5 

-0,69315 

28 

Juliana 

G 

14,4 

10 

0 

1 

0 

0 

0.5 

-0.69315 

hoi 

Estela 

_J_ 

- 1 :, 

13 

1 

0 

0 

0 

0.5 

-0.69315 

102 

jl03 

IsomatOriaLU -69.31472j 


Figura 13.2 Dados do arquivo Atrasad 0 MaximaVer 0 ssimilhan 9 a.xls. 
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Figura 13.3 Solver - Maximiza^ao da somatoria do logarltmo da fun^ao de verossimilhan^a. 


Como podemos verificar, quando a = (3 l = /? 2 = j8 3 = /3 4 = /3 5 = 0, o valor da somatoria do logaritmo da 
fun^ao de verossimilhan^a e igual a -69,31472. Entretanto, deve haver uma combina^ao otima de valores dos 
parametros, de modo que a fun^ao-objetivo apresentada na expressao (13.15) seja obedecida, ou seja, que o valor 
da somatoria do logaritmo da fun^ao de verossimilhan^a seja o maximo possivel. 

Seguindo a logica proposta por Belfiore e Favero (2012), vamos entao abrir a ferramenta Solver do Excel. 
A fun^ao-objetivo esta na celula J103, que e a nossa celula de destino e que devera ser maximizada.Alem disso, os 
parametros a , /? 3 , j8 4 e /3 5 , cujos valores estao nas celulas M3, M5, M7, M9, Mil e M13, respectivamente, 

sao as celulas variaveis. A janela do Solver ficara como mostra a Figura 13.3. 

Ao clicarmos em Resolver e em OK, obteremos a solu^ao otima do problema de programa^ao linear. 
ATabela 13.5 mostra parte dos resultados obtidos. 

Logo, o valor maximo possivel da somatoria do logaritmo da fun^ao de verossimilhan^a e LL m , x = -29,06568. 
A resolu^ao deste problema gerou as seguintes estimativas dos parametros: 

a = -30,202 
P t = 0,220 
P 2 = 2,767 
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Tabela 13.5 Valores obtidos quando da maximiza^ao de LL. 



■ 






Z, 

Pi 



0 

i m 

7 

1 

0 


-11,73478 


-0,00001 





1 

0 

1 

-3,25815 


-0,03774 

Gustavo 

0 

13,4 

8 

1 

1 

0 

-7,42373 

0,00060 

-0,00060 

Leticia 

0 

23,5 

7 

1 

0 

0 

-9,31255 

0,00009 

-0,00009 

Luiz Ovidio 

0 

9,5 

8 

1 

0 

0 

-9,62856 

0,00007 

-0,00007 

Leonor 

0 

13,5 

10 

1 

0 

0 

-3,21411 

0,03864 

-0,03940 

Dalila 

0 

13,5 

10 

1 

0 

0 

-3,21411 

0,03864 

-0,03940 

Antonio 

0 

15,4 

10 

1 

0 

0 

-2,79572 

0,05756 

-0,05928 

Julia 

0 

14,7 

10 

1 

0 

0 

-2,94987 

0,04974 

-0,05102 

Mariana 

0 

14,7 

10 

1 

0 

0 

-2,94987 

0,04974 

-0,05102 

- 1 

Filomena 

1 

12,8 

11 

0 

0 

1 

5,96647 

0,99744 

-0,00256 

1 

Estela 

1 

1,0 

13 

1 

0 

0 2,33383 

0,91164 

-0,09251 

Somatoria 

!=1 

;i-y ( )Jn(i—a)} 

-29,06568 


jS 3 = -3,653 
= 1,346 
jS 5 = 2,914 

e, assim, o logito Z. pode ser escrito da seguinte forma: 

Z. = —30,202 + 0,220 .dist + 2,767 .sem i —3,653 . / per i +1,346. perfil2 i + 2,914. perfil3 i 

A Figura 13.4 apresenta parte dos resultados obtidos pela modelagem no arquivo AtrasadoMaxima- 
Verossimilhan 9 a .xls. 



A 

B 

c 

0 

E 

F 

G 

H 

1 

J 

K j [ \ M f 


Estudante 

Atrasarfo (Y) 

Dtetancia{X,) 


Pefiodo(Xj) 

Perf1l2 OCt) 

Perfil3 (Xj) 

z. 

P, 

U, 



Gabriela 

0 

12,5 

7 

1 

0 

0 

-11.73478 


— iT*mii 

3 

Patricia 

0 


10 

1 

0 

0 

-3,25815 

0,03704 

-0,03774 


4 

Gustavo 

0 


8 

1 

1 

0 

-7.42373 

0,00060 

-0,00060 


5 

Leticia 

0 


7 

1 

0 

0 

-9,31255 

0,00009 

-0,00009 

| 0,220 } 

Q 

Luiz Ovfdio 

0 


8 

1 

0 

0 

-9,62856 

0,00007 

-0,00007 


7 

Leonor 

0 

13,5 

10 

1 

0 

0 

-3,21411 

0,03864 

-0,03940 

: lllil'll ^ T rr TBf 1 

8 

Dalila 

0 

13,5 

10 

1 

0 

0 

-3,21411 

0,03864 

-0,03940 


9 

Antfinio 

0 

15,4 

10 

1 

0 

0 

-2,79572 

0,05756 

-0,05928 

fh I -3.653 | 

10 

JOiia 

0 

14,7 

10 

1 

0 

0 

-2,94987 

0,04974 

-0,05102 


11 

Mariana 

0 

14,7 

10 

1 

0 

0 

-2,94987 

0.04974 

-0,05102 

| 1.346 | 

12 

Roberto 

0 

13,7 

10 

1 

o 

0 

-3,17007 

0,04031 

-0,04114 


13 

Renata 

0 

11 

10 

1 

0 

0 

-3,76461 

0,02265 

-0,02291 

fc 1 2.914 \ 

14 

Gutlherme 

o 

18,4 

10 

1 

0 

0 

-2,13512 

0,10573 

-0,11175 


15 

Rodrigo 

0 

11 

11 

1 

1 

0 

0.34825 

0,58619 

-0,88235 

16 

Giulia 

0 

11 

10 

1 

0 

0 

-3,76461 

0,02265 

-0,02291 

17 

Felipe 

0 

12 

7 

1 

1 

0 

-10.49884 

0,00003 

-0,00003 

18 

Karina 

0 

14 

10 

1 

0 

1 

-0,18951 

0.45276 

-0.60288 

19 

Pietro 

0 

11.2 

10 

1 

0 

0 

-372057 

0,02365 

-0,02393 

20 

Cecilia 

0 

13 

" 10. 

1 

0 

0 

-3.32421 

0,03475 

-0,03537 

21 

Giseie 

0 

12 

6 

1 

0 

0 

-14,61170 

0,00000 

0.00000 

22 

Elaine 

0 

17 

10 

1 

0 

1 

0,47110 

0,61564 

-0,95619 

_23_ 

Kamal 

0 

12 

9 

1 

0 

0 

-6,31123 

0,00181 

-0,00181 

24 

Rodolfo 

0 

12 

io 

1 

1 

b 

-2,19837 

0,09990 

-0,10525 

25 

Pitar 

0 

13 

5 

0 

0 

0 

-13,50492 

0,00000 

0.00000 

26 

Vivian 

0 

11,7 

10 

b 

0 

0 

0,04292 

0,51073 

-0,71484 

27 

Danielle 

0 

17 

10 

0 

0 

0 

1,21000 

0.77030. 

-1,47097 

28 

Juliana 

0 

14,4 

10 

.0. 

1 

0 

1,98351 

0,87905 

-2,11242 

101 

Estela 

1 

1 

13 

1 

0 

0 

2.33383 

0.91164 

-0.09251 


|somat6ria LU -29 065681 


Figura 13.4 Obtengao dos parametros quando da maximiza^ao de LL pelo Solver. 
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E, portanto, a expressao da probabilidade estimada de que um estudante i chegue atrasado pode ser escrita da 
seguinte forma: 

1 

P* ~ ^—(—30,202+0,220.^+2,767.5em l -3,653.^+l,346.^/2 t +2, 914.perfil 3.) 

Desta maneira, cabe agora a proposi^ao de algumas interessantes perguntas: 

Qual e a probabilidade media estimada de se chegar atrasado a escola ao se deslocar 17 quilo- 
metros e passar por 10 semaforos, tendo feito o trajeto de manha e sendo considerado agressivo ao 
volante? 

Em media, em quanto se altera a chance de se chegar atrasado a escola ao se adotar um percur- 
so 1 quilometro mais longo, mantidas as demais condi^oes constantes? 

Um aluno considerado agressivo apresenta, em media, uma chance maior de chegar atrasado 
do que outro considerado calmo? Se sim, em quanto e incrementada esta chance, mantidas as demais 
condi^oes constantes? 

Antes de respondermos a estas importantes questoes, precisamos verificar se todos os parametros estimados 
sao estatisticamente significantes a um determinado nivel de confian^a. Se nao for este o caso, precisaremos re- 
estimar o modelo final, a fim de que o mesmo apresente apenas parametros estatisticamente significantes para, a 
partir de entao, ser possivel a elabora^ao de inferences e previsoes. 

Portanto, tendo sido elaborada a estima^ao por maxima verossimilhan^a dos parametros da equa^ao de probabili¬ 
dade de ocorrencia do evento, partiremos para o estudo da significance estatistica geral do modelo obtido, bem como 
das significances estatisticas dos proprios parametros, de forma analoga ao realizado quando do estudo dos modelos 
tradicionais de regressao no capitulo anterior. E importante mencionar que no apendice deste capitulo faremos uma 
breve apresenta^ao dos modelos de regressao probit que podem ser utilizados alternativamente aos modelos de re¬ 
gressao logistica binaria para os casos em que a curva de probabilidades de ocorrencia de determinado evento ajustar- 
-se mais adequadamente a fun^ao densidade de probabilidade acumulada da distribui^ao normal padrao. 

13.2.2. Significancia estatistica geral do modelo e dos parametros da regressao logistica binaria 

Se, por exemplo, elaborarmos um grafico linear da nossa variavel dependente ( atrasado ) em fun^ao da varia- 
vel referente ao numero de semaforos (sem), perceberemos que as estimativas do modelo nao sao capazes de se 
ajustar de maneira satisfatoria ao comportamento da variavel dependente, dado que esta e uma dummy. O grafi¬ 
co da Figura 13.5a apresenta este comportamento. Por outro lado, se o modelo de regressao logistica binaria for 
elaborado e forem plotadas as estimativas das probabilidades de se chegar atrasado para cada observa^ao da nossa 
amostra, em fun^ao especificamente do numero de semaforos pelos quais cada estudante passa, perceberemos que 
o ajuste e bem mais adequado ao comportamento da variavel dependente (curva S, ou sigmoide), com valores 
estimados limitados entre 0 e 1 (Figura 13.5b). 

Portanto, como a variavel dependente e qualitativa, nao faz sentido discutirmos o percentual de sua variancia 
que e explicado pelas variaveis preditoras, ou seja, em modelos de regressao logistica nao ha um coeficiente de 
ajuste R 2 como nos modelos tradicionais de regressao estimados pelo metodo de minimos quadrados ordinarios. 
Entretanto, muitos pesquisadores apresentam, em seus trabalhos, um coeficiente conhecido por pseudo R 2 de 
McFadden, cuja expressao e dada por: 

pseudo R 2 = - 2 - LL o-(- 2,LL ^) (13.16) 

-2.LL 0 

e cuja utilidade e bastante limitada e restringe-se a casos em que o pesquisador tiver interesse em comparar dois 
ou mais modelos distintos, dado que um dos diversos criterios existentes para a escolha do modelo e o criterio 
de maior pseudo R 2 de McFadden. 

No nosso exemplo, conforme ja discutimos na se^ao anterior e ja calculamos por meio do Solver do Excel, 
LL ^, x , que e o valor maximo possivel da somatoria do logaritmo da fun^ao de verossimilhan^a, e igual a -29,06568. 

Ja LL q representa o valor maximo possivel da somatoria do logaritmo da fun^ao de verossimilhan^a para um 
modelo conhecido por modelo nulo, ou seja, para um modelo que so apresenta a constante a e nenhuma vari¬ 
avel explicativa. Por meio do mesmo procedimento elaborado na se^ao anterior, porem agora utilizando o arqui- 
vo Atrasad 0 MaximaVer 0 ssimilhan 9 aM 0 del 0 Nul 0 .xls, obteremos LL Q = -67,68585. As Figuras 13.6 e 13.7 
mostram, respectivamente, a janela do Solver e parte dos resultados obtidos pela modelagem neste arquivo. 
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a) Ajuste Linear 




Figura 13.5 Ajustes linear e logfstico da variavel dependente em fun^ao da variavel sem. 


Logo, com base na expressao (13.16), obteremos: 

, -2.(—67,68585)29,06568))! 

pseudo R = ---——---— = 0,5706 

-2. (-67,68585) 

Conforme discutimos, um maior pseudo R 2 de McFadden pode ser utilizado como criterio para escolha de 
um modelo em detrimento de outro. Entretanto, conforme iremos estudar na se^ao 13.2.4, ha outro criterio mais 
adequado a escolha do melhor modelo, o qual se refere a maior area abaixo da curva ROC. 

Muitos pesquisadores tambem utilizam o pseudo R 2 de McFadden como um indicador de desempenho do 
modelo escolhido, independentemente da compara^ao com outros modelos, porem a sua interpreta^ao exige 
muitos cuidados e, por vezes, ha a inevitavel tenta^ao em associa-lo, erroneamente, com percentuais de varian- 
cia da variavel dependente. Como iremos estudar na se$ao 13.2.4, o melhor indicador de desempenho de um 
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Figura 13.6 Solver - Maximiza^ao da somatoria do logaritmo da fun^ao de verossimilhan^a para o modelo nulo. 
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Figura 13.7 Obten^ao dos parametros quando da maximiza^ao de LL pelo Solver - modelo nulo. 
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modelo de regressao logistica binaria refere-se a eficiencia global do modelo, que e definida com base na deter- 
mina^ao de um cutoff,] cujos conceitos tambem serao estudados na mesma se^ao. 

Embora a utilidade do pseudo R 2 de McFadden seja limitada, softwares como o Stata e o SPSS fazem seu 
calculo e o apresentam em seus respectivos outputs , conforme veremos nas se^oes 13.4 e 15.5, respectivamente. 

Analogamente ao procedimento apresentado no capitulo anterior, inicialmente iremos estudar a significance 
estatistica geral do modelo que esta sendo proposto. O teste X 2 propicia condi^oes a verifica^ao da significancia 
do modelo, uma vez que suas hipoteses nula e alternativa, para um modelo geral de regressao logistica, sao, 
resp ec tivament e: 


H o :/3, = ft = ... = ft = 0 

existe pelo menos um (3 ^ 0 


4 


Enquanto o teste F e utilizado para modelos de regressao em que a variavel dependente apresenta-se na for¬ 
ma quantitativa, o que gera a decomposi^ao de variancia (tabela ANOVA) estudada no capitulo anterior, o teste 
X 2 e mais adequado para modelos estimados pelo metodo de maxima verossimilhan^a, como os modelos de re¬ 
gressao logistica. 

O teste X 2 propicia ao pesquisador uma verifica^ao inicial sobre a existencia do modelo que esta sendo pro¬ 
posto, uma vez que, se todos os parametros estimados f3. (J = 1 , 2 ,..., k) forem estatisticamente iguais a 0, o corn- 
portamento de altera^ao de cada uma das variaveis X nao influenciara em absolutamente nada a probabilidade de 
ocorrencia do evento em estudo.A estatistica X 2 tern a seguinte expressao: 


X 2 = “2. (LL 0 - LL m , x ) 


(13.17) 


Voltando ao nosso exemplo, temos que: 

Xsgj. =-2. [-67,68585-(-29,06568)] = 77,2403 


Para 5 graus de liberdade (numero de variaveis explicativas consideradas na modelagem, ou seja, numero de 
parametros jS), temos, por meio da Tabela D do apendice do livro, que o X 2 C = 11,070 (X 2 critico para 5 graus de li¬ 
berdade e para o nivel de significancia de 5%). Desta forma, como o X 2 calculado X 2 cd ~ 77,2403 > X 2 C = 11,070, 
podemos rejeitar a hipotese nula de que todos os parametros /3. (J — 1,2,..., 5) sejam estatisticamente iguais a 
zero. Logo, pelo menos uma variavel X e estatisticamente significante para explicar a probabilidade de ocorrencia 
do evento em estudo e teremos um modelo de regressao logistica binaria estatisticamente significante para fins 
de previsao. 

Softwares como o Stata e o SPSS nao oferecem o X 2 C P ara os graus de liberdade definidos e um determinado 
nivel de significancia. Todavia, oferecem o nivel de significancia do X 2 cd P ara estes graus de liberdade. Desta for¬ 
ma, em vez de analisarmos se X 2 cal > X? c -> devemos verificar se o nivel de significancia do % 2 ca/ e menor do que 0,05 
(5%) a fim de darmos continuidade a analise de regressao. Assim: 

Se valor-P (ou P-value ou Sig. / m| ou Prob. X 2 ca ) < 0,05, existe pelo menos um (3. ^ 0. 

O nivel de significancia do X 2 cai pode ser obtido no Excel por meio do comando Formulas — > Inserir 
Fun^ao -> DIST.QUI, que abrira uma caixa de dialogo conforme mostra a Figura 13.8. 

Analogo ao teste F, o teste X 2 avalia a significancia conjunta das variaveis explicativas, nao definindo qual ou 
quais destas variaveis consideradas no modelo sao estatisticamente significantes para influenciar a probabilidade 
de ocorrencia do evento. 

Desta forma, e preciso que o pesquisador avalie se cada um dos parametros do modelo de regressao logistica 
binaria e estatisticamente significante e, neste sentido, a estatistica z de Wald sera importante para fornecer a 
significancia estatistica de cada parametro a ser considerado no modelo. A nomenclatura z refere-se ao fato de 
que a distribui^ao desta estatistica e a distribui^ao normal padrao. As hipoteses do teste z de Wald para o a e 
para cada /3 (j — 1 , 2 ,..., k) sao, respectivamente: 

H 0 :« = 0 

H r0, = 0 
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Figura 13.8 Obten^ao do nfvel de significancia de^ 2 (comando Inserir Fun^aoj. 


As expressoes para o calculo das estatxsticas £ deWald de cada parametro a e ft sao dadas, respectivamente, por: 


a 

s.e. (a) 


(13.18) 



em que s.e. significa o erro-padrao (.standard error) de cada parametro em analise. Dada a complexidade do calcu¬ 
lo dos erros-padrao de cada parametro, nao o faremos neste momento, porem recomendamos a leitura de Engle 
(1984). Os valores de s.e. de cada parametro, para o nosso exemplo, sao: 


s.e. (a) = 9,981 
s.e. (ft) = 0,110 
s.e. (ft) = 0,922 
s.e. (ft) = 0,878 
5. e . (/3 4 ) = 0,748 
s.e. (j8 5 ) = 1,179 


Logo, como ja calculamos as estimativas dos parametros, temos que: 


a 

-30,202 

s.e. (a) 

9,981 

_ A 

_ 0,220 

s.e. (ft) 

~ 0,110 

_ A 

_ 2,767 

s.e.(/3 2 ) 

~ 0,922 

_ A . 

-3,653 

1 

4 

i 

" 0,878 


-3,026 

2,000 

3,001 

-4,161 
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= _^ = U46 
s.e.(ft) 0,748 


-&-=W± = 2, 472 

«.(A) 1,179 


Apos a obtengao das estatisticas ^ de Wald, o pesquisador pode utilizar a tabela de distribuigao da curva nor¬ 
mal padrao para obten^ao dos valores criticos a um dado nivel de significancia e verificar se tais testes rejeitam 
ou nao a hipotese nula. 

Para o nivel de significancia de 5%, temos, por meio da Tabela E do apendice do livro, que o z — -1,96 para 
a cauda inferior (probabilidade na cauda inferior de 0,025 para a distribui^ao bicaudal) e = 1,96 para a cauda 
superior (probabilidade na cauda superior tambem de 0,025 para a distribuigao bicaudal). 

Os valores de z c para o nivel de significancia de 5% podem ser obtidos no Excel por meio do comando 
Formulas —> Inserir Fut^ao —> INV.NORMP, sendo que o pesquisador devera digitar uma probabilidade de 
2,5% para a obtengao de ar para a cauda inferior e 97,5% para a obtengao de ^ para a cauda superior, conforme 
mostram, respectivamente, as Figuras 13.9 e 13.10. 


Argumentos da fun^ao 




2,5% 


= 0,025 


* -1,959963985 

Es$a esta d^sorwef para compatKdade mm o Excd 2007 e anterior. 

Retoma 0 inverse da dstribu^ao cumuiattva normal padrao (pome uma meefa zero e um desvio padrao 1)* 

PmhsMMM®. 4 uma probab*dade correspondente a distribute normal, um numaro entre 0 
e 1 mdussve. 


Resulted© da formula = -1,959963985 
Aiuda sobre esta fundio 


OX 


Camfitor 


Figura 13.9 Obtengao de z c para a cauda inferior (comando Inserir Fun^ao). 


Argumentos da funqao 


MfMOm? 

|j ■ 0,975 

* 1,959963985 

Essa fim^ao esta disporaveJ para compat&udade com o Excd 2007 e anterior, 

Retoma o enverso da distribute cumulatsva normal padrao (possui uma media zero e um desvio padrao 1). 

Frobsl)3!b£ade 4 uma probabilidade correspondente a distribute normal, um numero entre 0 
e 1 indiisive. 


97,5% 


Res^tado da formida = 1,959963985 
Aiuda sabre esta ftmcao 


OX 


Cancdar 


Figura 13.10 Obtengao dez c para a cauda superior (comando Inserir Fungao). 
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Apenas a estatistica z de Wald do parametro j8 4 apresentou valor entre -1,96 e 1,96, o que indica, ao nivel de 
significancia de 5%, que, para este caso, nao houve rejei^ao da hipotese nula, ou seja, este parametro nao pode ser 
considerado estatisticamente diferente de zero. 

Como no caso do teste j£ 2 , os pacotes estatisticos tambem oferecem os valores dos mveis de significancia dos 
testes ^ de Wald, o que facilita a decisao,ja que, com 95% de nivel de confian^a (5% de nivel de significancia), 
teremos: 


Se valor-P (ou P-value ou Sig. zjp u Prob. z J) < 0,05 para a, a ^ 0 
e 

Se valor-P (ou P-value ou Sig. z caJ ou Prob. zj) < 0,05 para determinada variavel explicativa X, f3 ^ 0. 

Desta forma, como -1,96 < Zp = 1,799 < 1,96, veremos que o valor-P da estatistica ^ de Wald da variavel 
perfil2 sera maior do que 0,05. 

A nao rejei^ao da hipotese nula para o parametro j8 4 , ao nivel de significancia de 5%, indica que a correspon- 
dente variavel perfil2 nao e estatisticamente significante para aumentar ou diminuir a probabilidade de se chegar 
atrasado a escola na presen^a das demais variaveis explicativas e, portanto, podera ser excluida do modelo final. 

Neste momento, iremos fazer a exclusao manual desta variavel, a fim de obtermos o modelo final. Entretanto, 
e importante ressaltar que a exclusao manual de uma variavel pode fazer com que outra inicialmente significa- 
tiva passe a apresentar um parametro nao significante, e este problema tende a piorar tanto quanto maior for o 
numero de variaveis explicativas no banco de dados. O contrario tambem pode ocorrer, ou seja, nao se reco- 
menda que haja a exclusao manual simultanea de duas ou mais variaveis cujos parametros, num primeiro mo¬ 
mento, nao se mostrarem estatisticamente diferentes de zero, uma vez que um determinado parametro /3 pode 
tornar-se estatisticamente diferente de zero, mesmo inicialmente nao sendo, ao se eliminar da analise outra vari¬ 
avel cujo parametro /3 tambem nao se mostrava estatisticamente diferente de zero. Felizmente estes fenomenos 
nao ocorrem neste exemplo e, assim, optamos por excluir manualmente a variavel perftl2. Isto sera comprovado 
quando estimarmos este modelo de regressao logistica binaria por meio do procedimento Stepwise nos softwares 
Stata (se^ao 13.4) e SPSS (se^ao 13.5). 

Assim, vamos abrir o arquivo AtrasadoMaximaVerossimilhan^aModeloFinal.xls. Note que agora o cal- 
culo do logito (Z.) nao leva mais em considera^ao o parametro da variavel perfil2 , excluida da modelagem. As 
Figuras 13.11 e 13.12 mostram, respectivamente, a janela do Solver e parte dos resultados obtidos pela modela¬ 
gem por meio deste ultimo arquivo. 

Logo, para o modelo final, temos que LL — -30,80079. Antes de partirmos para a defini^ao da expres- 
sao final da probabilidade de ocorrencia do evento em estudo, precisamos defmir se o novo modelo estimado 
(modelo final) apresenta perda na qualidade do ajuste em relagao ao modelo completo estimado com todas as 
variaveis explicativas. Para tanto, o teste de razao de verossimilhan9a ( likelihood-ratio test), que verifica a 
adequa^ao do ajuste do modelo completo em compara^ao com o ajuste do modelo final, pode ser utilizado, 
apresentando a seguinte expressao: 


Xig.i. ~ 2.^LL 


'modelo final ^^modelo completo ^ 


(13.19) 


Para os dados do nosso exemplo, temos que: 

x\ gl = -2. [-30,80079 -(-29,06568)] = 3,4702 

Logo, para 1 grau de liberdade, temos, por meio da Tabela D do apendice do livro, que o % 2 c = 3,841 (^ 2 
critico para 1 grau de liberdade e para o nivel de significancia de 5%). Desta forma, como o % 2 calculado 
X 2 ca] — 3,4702 < X 2 C ~ 3,841, nao rejeitamos a hipotese nula do teste de razao de verossimilhan^a, ou seja, a es- 
tima^ao do modelo final com a exclusao da variavel perfil2 nao alterou a qualidade do ajuste, ao nivel de signi¬ 
ficancia de 5%, o que faz com que este modelo seja preferivel em rela^ao ao modelo completo estimado com 
todas as variaveis explicativas. 

Nas se^oes 13.4 e 13.5 apresentaremos, por meio dos softwares Stata e SPSS, respectivamente, outro teste mui- 
to usual para verifica^ao da qualidade de ajuste do modelo final, conhecido por teste de Hosmer-Lemeshow. 
Segundo Ay^aguer e Utra (2004), ao se dividir a base de dados em 10 grupos pelos decis das probabilidades esti- 
madas pelo modelo final para cada observa^ao, este teste avalia, por meio da elabora^ao de um teste Z 2 > se existem 
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Figura 13.11 Solver - Maximiza<;ao da somatoria do logaritmoda fun$ao de verossimilhanga para o modelo final. 


diferencpas significativas entre as frequencias observadas e esperadas do numero de observances em cada um dos 
10 grupos e, caso tais diferenfas nao sejam estatisticamente significativas, a um determinado nivel de significance, 
o modelo estimado nao apresentara problemas em rela<;ao a qualidade do ajuste proposto. 

Sendo assim, retornaremos a analise dos resultados da estimacao do modelo final, e a resolunao deste novo 
problema gerou as seguintes estimativas finais dos parametros: 

a = -30,935 
^ = 0,204 
P 2 = 2,920 
P 3 = -3,776 
P 5 = 2,459 

com os respectivos erros-padrao: 

s.e. (a) = 10,636 
s.e. (j3 t ) = 0,101 
i.e. (P 2 ) = 1,011 
s.e. (P 3 ) = 0,847 
s.e. (j8 5 ) = 1,139 
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Figura 13.12 Obten^ao dos parametros quando da maximiza^ao de LL pelo Solver - modelo final. 


e as seguintes estatisticas z deWald: 


a 

-30,935 

s.e.(a ) 

10,636 

_ A 

_ 0,204 

s.e.(A) 

~ 0,101 

_ A 

_ 2,920 

s-e.( A) 

~ 1,011 

. A _ 

-3,776 

s.e.(A) 

’ 0,847 

_ A 

_ 2,459 

s - e - (A) 

~ 1,139 


-2,909 


2,020 


2,888 


-4,458 


2,159 


com todos os valores de 2 < -1,96 ou > 1,96 e, portanto, com valores-P das estatisticas z deWald < 0,05. 
O modelo final ainda apresenta as seguintes estatisticas: 


pseudo R 2 


-2. (-67,68585) -[(-2. (-30,80079))] 
-2. (-67,68585) 


0,5449 


X\ gL = -2. [-67,68585 - (-30,80079)] = 73,77012 > i = 9,48773 

Desta forma, podemos escrever o logito Z. como segue: 

Z. = -30,935 + 0,204 .dist { + 2,920.sem i - 0,776.per + 2,459. perfil 3 1 
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com a seguinte expressao final de probabilidade estimada de que urn estudante i chegue atxasado a escola: 

1 

Pi ~ i + ^-(-30,935+0,204.^+2,920.5^-3,776.^+2,459.^3,) 

Estes parametros e respectivas estatisticas tambem serao obtidos por meio do procedimento Stepwise quando 
da estima^ao do modelo de regressao logistica binaria no Stata e no SPSS. 

Com base na estimagao da fun^ao probabilistica, um curioso pesquisador pode, por exemplo, desejar elaborar 
urn grafico das probabilidades estimadas de cada aluno chegar atrasado a escola (coluna H do arquivo do modelo 
final no Excel) em fun^ao do numero de semaforos pelos quais cada um passa no percurso (coluna D no Excel). 
A Figura 13.13 apresenta este grafico e, ao contrario do grafico da Figura 13.5b, que oferece um ajuste logistico 
deterministico (apenas valores iguais a 0 ou 1 para a variavel dependente), este novo grafico apresenta um ajuste 
logistico probabilistico. 

Com base na Figura 13.13, que tambem apresenta a curva logistica ajustada a nuvem de pontos que repre- 
sentam as probabilidades estimadas para cada observa^ao, podemos verificar que, enquanto a probabilidade de se 
chegar atrasado a escola e muito baixa quando se passa por ate 8 semaforos ao longo do trajeto, esta probabilidade 
passa ser bastante elevada quando se e obrigado a passar por 11 ou mais semaforos no percurso. 



Figura 13.13 Ajuste logistico probabilistico em fungao da variavel sem. 


Aprofundando a analise da fun^ao probabilistica, podemos retornar as nossas tres importantes perguntas, res- 
pondendo uma de cada vez: 

Qual e a probabilidade media estimada de se chegar atrasado a escola ao se deslocar 17 quilo- 
metros e passar por 10 semaforos, tendo feito o trajeto de manha e sendo considerado agressivo 
ao volante? 

Fazendo uso da ultima expressao de probabilidade e substituindo os valores fornecidos nesta equa^ao, teremos: 


P = 


_ 1 _ 

\ _|_ e “[- 30 » 93 5+0,204.(17)+2,920.(10)-3,776.(l)+2,459.(1)] 


0,603 


Logo, a probabilidade media estimada de se chegar atrasado a escola e, nas condi^oes informadas, igual a 60,3%. 

Em media, em quanto se altera a chance de se chegar atrasado a escola ao se adotar um percur¬ 
so 1 quilometro mais longo, mantidas as demais condi^oes constantes? 
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Para respondermos a esta questao, devemos recorrer a expressao (13.3), que podera ser escrita da seguinte 
forma: 

chance Y _ x = e Zi (13.20) 

de modo que, mantidas as demais condi^oes constantes, a chance de se chegar atrasado a escola ao se adotar um 
trajeto 1 quilometro mais longo e: 

chance Y=x = e 0,204 = 1,226 

Logo, a chance e multiplicada por um fator de 1,226, ou seja, mantidas as demais condi^oes constantes, a 
chance de se chegar atrasado a escola ao se adotar um trajeto 1 quilometro mais longo e, em media, 22,6% maior. 

Um aluno considerado agressivo apresenta, em media, uma chance maior de chegar atrasado do 
que outro considerado calmo? Se sim, em quanto e incrementada esta chance, mantidas as demais 
condi 9 oes constantes? 

Como fi 5 e positivo, podemos afirmar que a probabilidade de um aluno considerado agressivo chegar atrasado 
e maior do que um aluno considerado calmo, fato que tambem e comprovado quando se analisa a chance, dado 
que, se /3 5 > 0, logo e^ >1, ou seja, a chance sera maior de chegar atrasado quando se e agressivo ao volante em 
rela^ao a ser calmo. Isso comprova, mais uma vez, que a agressividade no volante nao leva a nada! 

Mantidas as demais condi^oes constantes, a chance de chegar atrasado quando se e agressivo ao volante em 
rela^ao a ser calmo e dada por: 

chance Y=x = e 2,459 = 11,693 

Logo, a chance e multiplicada por um fator de 11,693, ou seja, mantidas as demais condi^oes constantes, 
a chance de se chegar atrasado a escola quando se e agressivo ao volante em rela^ao a ser calmo e, em media, 
1.069,3% maior. 

Vale comentar que nao ha diferen^as na probabilidade de se chegar atrasado a escola quando se e considera¬ 
do moderado ou calmo, dado que o parametro /3 4 (referente a categoria moderado) apresentou-se estatisticamente 
igual a zero, ao nivel de significancia de 5%. 

Conforme podemos perceber, estes calculos utilizaram sempre as estimativas medias dos parametros. Partiremos 
agora para o estudo dos intervalos de confian^a destes parametros. 


13.2.3. Constru^ao dos intervalos de confian^a dos parametros do modelo de regressao 
iogistica binaria 

Os intervalos de confian^a dos coeficientes da expressao (13.10), para os parametros a e /3. (j = 1, 2,..., k), ao 

nivel de confian<~a de 95%, podem ser escritos, respectivamente, da seguinte forma: 

r (13.21) 

a ±1,96. [<>.e. (a)] 

Pj ±l-96.[s.e.(/?.)] 


em que, conforme vimos, 1,96 eo^ para o nivel de confian^a de 95% (nivel de significancia de 5%). 

Desta maneira, podemos elaborar aTabela 13.6, que traz os coeficientes estimados dos parametros da expres¬ 
sao de probabilidade de ocorrencia do evento de interesse do nosso exemplo, com os respectivos erros-padrao, as 
estatisticas ^ de Wald e os intervalos de confian^a para o nivel de significancia de 5%. 

Esta tabela e igual a que obteremos quando da elabora^ao da modelagem no Stata e no SPSS por meio do 
procedimento Stepwise. Como base nos intervalos de confian^a dos parametros, podemos escrever as expressoes 
dos limites inferior (minimo) e superior (maximo) da probabilidade estimada de que um estudante i chegue atra¬ 
sado a escola, com 95% de confian^a. Assim, teremos: 


Pi, = 


1 


1 + e 


51,782+0,006.di5f ( -+0,938.sem J --5 ) 436.perj[+0,227.pe»/t/3 t -) 


Pi^ 


l+e 


-(-10,088+0,402.&(,+4,902.sem,-2,116.pa,+4,691.per/;i3,) 
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Com base na expressao (13.20), o intervalo de confian^a da chance de ocorrencia do evento de interesse para 
cada parametro )8 (j — 1, 2, k), ao mvel de confianga de 95%, pode ser escrito da seguinte forma: 

e Pjn,96[s,.(Pj)] (13.22) 

Note que nao apresentamos a expressao do intervalo de confianga da chance para o parametro a, uma vez 
que so faz sentido discutirmos a mudan^a na chance de ocorrencia do evento em estudo quando e alterada 
em uma unidade, por exemplo, determinada variavel explicativa do modelo, mantidas as demais condi^oes 
constantes. 

Para os dados do nosso exemplo e com base nos valores daTabela 13.6, vamos, entao, elaborar aTabela 13.7, que 
apresenta os intervalos de confian^a da chance (odds) de ocorrencia do evento de interesse para cada parametro /3. 


Tabela 13.6 Calculo dos intervalos de confian^a dos parametros. 


Parametro 

Coeficiente 

Erro-Padrao 

(s.e.) 

z 

Intervalo de Confianfa (95%) 

a-l,96.[s.e.(a)] 

Pj-l,96.[s.e.(Pjj\ 

a + l,96.[s.e. ( a) ] 
P J+ 1.96.[s.e.(Pj)] 

a (constante) 

-30,935 

10,636 

-2,909 

-51,782 

-10,088 

P 1 (variavel dist) 

0,204 

0,101 

2,020 

0,006 

0,402 

P 2 (variavel sem) 

2,920 

1,011 

2,888 

0,938 

4,902 

P 3 (variavel per) 

-3,776 

0,847 

-4,458 

-5,436 

-2,116 

P 5 (variavel perfil3) 

2,459 

1,139 

2,159 

0,227 

4,691 


Tabela 13.7 Calculo dos intervalos de confian^a da chance {odds) para cada parametro p. 


Parametro 

Chance (Odds) 

Intervalo de Confianfa da Chance (95%) 

e* 

e P r U9 6 [,,{ Pj )] 

/^1’96-H^)] 

P 1 (variavel dist) 

1,226 

1,006 

1,495 

P 2 (variavel sem) 

18,541 

2,555 

134,458 

P 3 (variavel per) 

0,023 

0,004 

0,120 

P s (variavel perfil3) 

11,693 

1,254 

109,001 


Estes valores tambem poderao ser obtidos por meio do Stata e do SPSS, conforme mostraremos, respectiva- 
mente, nas se^oes 13.4 e 13.5. 

Conforme ja discutido no capitulo anterior, se o intervalo de confian^a de determinado parametro contiver 
o zero (ou da chance contiver o 1), o mesmo sera considerado estatisticamente igual a zero para o mvel de con- 
fianga com que o pesquisador estiver trabalhando. Se isso acontecer com o parametro a, recomenda-se que nada 
seja alterado na modelagem, uma vez que tal fato e decorrente da utiliza^ao de amostras pequenas, e uma amostra 
maior poderia resolver este problema. Por outro lado, se o intervalo de confian^a de um parametro )3. contiver 
o zero, este sera excluido do modelo final quando da elabora^ao do procedimento Stepwise. Embora nao tenha 
sido mostrado aqui, o intervalo de confian^a do parametro estimado para a variavel perfil2 conteve o zero ja que, 
como discutido, seu valor de 2 situou-se entre -1,96 e 1,96 e,portanto, tal variavel foi excluida do modelo final. 

Conforme tambem ja discutido, a rejei^ao da hipotese nula para determinado parametro /3, a um especifica- 
do mvel de significance, indica que a correspondente variavel X e significativa para explicar a probabilidade de 
ocorrencia do evento de interesse e, consequentemente, deve permanecer no modelo final. Podemos, portanto, 
concluir que a decisao pela exclusao de determinada variavel X em um modelo de regressao logistica pode ser 
realizada por meio da analise direta da estatistica z de Wald de seu respectivo parametro /3 (se -z < z t < z c —» 
valor-P > 0,05 —> nao podemos rejeitar que o parametro seja estatisticamente igual a zero) ou por meio da anali¬ 
se do intervalo de confian^a (se o mesmo contiver o zero). O Quadro 13.1 apresenta os criterios de inclusao ou 
exclusao de parametros /3 (j = 1 , 2, ..., k) em modelos de regressao logistica. 
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QUADRO 13,1 Decisao de inclusao de parametros (3. em modelos de regressao logfstica. 


Parametro 

Estatistica z de Wald (para 
nivel de significancia a) 

Teste ar (analise do valor-P 
para nivel de significancia a) 

Analise pelo Intervalo 
de Confian^a 

Decisao 

A 

—Z n < z , < z /0 

c a/2 cal c a/2 

valor-P > nivel de sig. a 

O intervalo de 
confianna contem o 

zero 

Excluir o 
parametro do 
modelo 

Z , > Z .. 
cal c a/2 

ou 

z , < -z „ 

cal c a/2 

valor-P < nivel de sig. a 

O intervalo de 
confianna nao contem 

o zero 

Manter o 
parametro no 
modelo 


Obs.: O mais comum em ciencias sociais aplicadas e a ado^ao do nivel de significancia a = 5%. 


13.2.4. Cutoff, analise de sensibilidade, eficiencia global do modelo, sensitividade 
e especificidade 

Estimado o modelo de probabilidade de ocorrencia do evento, vamos agora definir o conceito de cutoff, a par- 
tir do qual sera possivel classificar, no nosso exemplo, as observa^oes com base nas probabilidades estimadas de 
cada uma delas.Voltemos a expressao de probabilidade estimada para o modelo final: 

1 

Pi ^-(- 30 , 935 + 0 ,204.disti + 2 , 920 . semi - 3,776 . per { + 2 ,459.perfil 3 ,-) 

Calculados os valores de p., por meio do arquivo AtrasadoMaximaVerossimilhan^aModeloFinal.xls, va¬ 
mos elaborar uma tabela com algumas das observa^oes da nossa amostra. ATabela 13.8 traz os valores de p para 
10 observagoes escolhidas aleatoriamente, apenas para fins didaticos. 

O cutoff, que nada mais e do que um ponto de corte que o pesquisador escolhe, e definido para que sejam 
classificadas as observa^oes em fun^ao das suas probabilidades calculadas e, desta forma, e utilizado quando ha o 
intuito de se elaborarem previsoes de ocorrencia do evento para observa^oes nao presentes na amostra com base 
nas probabilidades das observa^oes presentes na amostra. 

Assim, se determinada observa^ao nao presente na amostra apresentar uma probabilidade de incidir no evento 
maior do que o cutoff definido, espera-se que haja a incidencia do evento e, portanto, sera classificada como evento. Por 
outro lado, se a sua probabilidade for menor do que o cutoff definido, espera-se que haja a incidencia do nao evento 
e, portanto, sera classificada como nao evento. 

De maneira geral, podemos estipular o seguinte criterio: 

Se p > cutoff —> a observa^ao i devera ser classificada como evento. 

Se p < cutoff —> a observa^ao i devera ser classificada como nao evento. 

Como a expressao de probabilidade e estimada com base nas observa^oes presentes na amostra, a classifica- 
$ao para outras observa^oes nao presentes inicialmente na amostra leva em considera^ao a consistencia do corn- 
portamento dos estimadores e, portanto, para efeitos inferenciais, a amostra deve ser significativa e representativa 
do comportamento populacional, como em qualquer modelo de dependencia confirmatorio. 1 


1 Vale a pena mencionar que, ao longo de todo este capitulo, estamos considerando que a rela^ao entre a propor^ao de observa^oes defini- 
das como evento e a propor^ao de observances definidas como nao evento na amostra em estudo seja identica a correspondente rela^ao 
existente na populanao, ja que, por vezes, nao se conhece essa relanao. Se, entretanto, ela for conhecida e significativamente diferente da 
considerada na amostra em analise, a probabilidade estimada de ocorrencia do evento em estudo para determinada observanao da amostra 
pode ser consideravelmente diferente da observada na populanao em geral. 

Neste sentido, para que o modelo possa ser aplicado a uma populanao cuja propornao de observances definidas como evento e substan- 
cialmente diferente daquela utilizada em sua estimanao, e necessario que seja aplicada uma correnao no valor do intercepto estimado no 
modelo amostral. Conforme sugere Anderson (1982) e discutem Brito e Assaf Neto (2007), pode ser utilizada a seguinte expressao para 
que o intercepto seja corrigido: 

^corrigido = ^estimado + In 

em que n,en 0 representam, respectivamente, a propornao de observances definidas como evento e a propornao de observances definidas 
como nao evento na populanao em geral, e^en, representam, respectivamente, a quantidade de observances definidas como nao evento 
e a quantidade de observanoes definidas como evento na amostra em estudo, sendo n Q + n x - n (tamanho da amostra). 


no 

n n «i 
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Tabela 13.8 Valores dep. para 10 observances. 


Observanao 

Pi 

Adelino 

0,05444 

Carolina 

0,67206 

Cristina 

0,55159 

Eduardo 

0,81658 

Cintia 

0,64918 

Raimundo 

0,05340 

Emerson 

0,04484 

Raquel 

0,56702 

Rita 

0,85048 

Leandro 

0,46243 


Tabela 13.9 Real incidencia do evento e classificanao para 10 observances com cutoff = 0,5. 


Observanao 

Evento 

Pi 

Classificanao 

Cutoff = 0,5 

Adelino 

Nao 

0,05444 

Nao 

Carolina 

Nao 

0,67206 

Sim ' 

Cristina 

Nao 

0,55159 

Sim 

Eduardo 

Nao 

0,81658 

Sim 

Cintia 

Nao 

0,64918 

Sim 

Raimundo 

Nao 

0,05340 

Nao 

Emerson 

Nao 

0,04484 

Nao 

Raquel 

Nao 

0,56702 

Sim 

Rita 

Sim 

0,85048 

Sim 

Leandro 

Sim 

0,46243 

Nao 


O cutoff serve para que o pesquisador avalie a real incidencia do evento para cada observance e a compare com a 
expectativa de que cada observanao incida, de fato, no evento. Com isto feito, sera possivel avaliar a taxa de acerto do 
modelo com base nas proprias observanoes presentes na amostra e, por inferencia, assumir que tal taxa de acerto 
se mantenha quando houver o intuito de avaliar a incidencia do evento para outras observanoes nao presentes 
na amostra (previsao). 

Com base nos dados das observanoes apresentadas na Tabela 13.8, e escolhendo-se, por exemplo, um cutoff de 
0,5, podemos definir que: 

Se p. > 0,5 —> a observanao i devera ser classificada como evento. 

Se p < 0,5 —> a observanao i devera ser classificada como nao evento. 

A Tabela 13.9 traz, para cada uma das 10 observanoes escolhidas ao acaso, a real incidencia do evento e a res- 
pectiva classificanao com base na defininao do cutoff. 


Tabela 13.10 Tabela de classificanao para 10 observanoes (cutoff = 0,5). 



Incidencia Real do Evento 

Incidencia Real do Nao Evento 

Classificado como Evento 

1 

5 

Classificado como Nao Evento 

1 

3 
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Logo, podemos elaborar uma nova tabela de classificanao (Tabela 13.10), ainda com base apenas nestas 10 ob¬ 
servances, a fim de avaliarmos se as observances foram corretamente classificadas com um cutoff de 0,5. 

Em outras palavras, para estas 10 observances, apenas uma delas foi evento e apresentou uma probabilidade 
maior do que 0,5, ou seja, foi evento e de fato foi classificada como tal (classificada corretamente). Outras 3 ob¬ 
servances tambem foram classificadas corretamente, ou seja, nao foram evento e de fato nao foram classificadas 
como evento. Por outro lado, 6 observances foram classificadas de forma incorreta, ou seja, enquanto uma foi 
evento, embora tenha apresentado uma probabilidade menor do que 0,5 e, portanto, nao foi classificada como 
evento, outras 5 nao foram evento mas apresentaram probabilidades estimadas maiores do que 0,5 e, consequen- 
temente, foram classificadas como evento. 

Para a nossa amostra de 100 observances, podemos elaborar a Tabela 13.11, que traz a classificanao completa 
para um cutoff de 0,5. Esta tabela sera tambem obtida por meio da modelagem no Stata e no SPSS. 


Tabela 13.11 Tabela de classificanao para a amostra completa {cutoff = 0,5). 



Incidencia Real do Evento 

Incidencia Real do Nao Evento 

Classificado como Evento 

56 

11 

Classificado como Nao Evento 

3 

30 


Para a amostra completa, podemos verificar que 86 observances foram classificadas corretamente, para um 
cutoff de 0,5, sendo que 56 delas foram evento e de fato foram classificadas como tal, e outras 30 nao foram evento 
e nao foram classificadas como evento com este cutoff. Entretanto, 14 observances foram classificadas incorreta- 
mente, sendo que 3 foram evento mas nao foram classificadas como tal e 11 nao foram evento mas foram classi¬ 
ficadas como tendo sido. 

Esta analise, conhecida por analise de sensibilidade, gera classificanoes que dependem da escolha do cutoff. 
Mais adiante, faremos alteranoes no cutoff, de modo a mostrar que as quantidades de observances classificadas, res- 
pectivamente, como evento ou nao evento mudarao. 

Neste momento, definiremos os conceitos de eficiencia global do modelo, sensitividade e especifi- 
cidade. 

A eficiencia global do modelo corresponde ao percentual de acerto da classificanao para um determinado 
cutoff. Para o nosso exemplo, a eficiencia global do modelo e calculada da seguinte forma: 

EGM = 56 + 30 = 0,8600 

100 

Logo, para um cutoff de 0,5,86,00% das observances sao classificadas corretamente. Conforme mencionado na 
senao 13.2.2, a eficiencia global do modelo, para um determinado cutoff, e bem mais adequada para se avaliar o 
desempenho da modelagem do que o pseudo R 2 de McFadden, uma vez que a variavel dependente apresenta- 
-se na forma qualitativa dicotomica. 

A sensitividade diz respeito ao percentual de acerto, para um determinado cutoff, considerando-se apenas as 
observances que de fato sao evento. Logo, no nosso exemplo o denominador para o calculo da sensitividade e 
59, e sua expressao e dada por: 

56 

Sensitividade = — = 0,9492 
59 

Assim, para um cutoff de 0,5, 94,92% das observances que sao evento sao classificadas corretamente. 

Ja a especificidade, por outro lado, refere-se ao percentual de acerto, para um dado cutoff, considerando-se 
apenas as observances que nao sao evento. No nosso exemplo, a sua expressao e dada por: 

30 

Especificidade = — = 0,7317 
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Desta forma, 73,17% das observagoes que nao sao evento sao classificadas corretamente, ou seja, para um cutoff 
de 0,5, apresentam probabilidades de ocorrencia do evento menores do que 50%. 

Obviamente, a eficiencia global do modelo, a sensitividade e a especificidade mudam quando e alterado o va¬ 
lor do cutoff. ATabela. 13.12 apresenta uma nova classificagao para as observagoes da amostra, considerando-se um 
cutoff de 0,3. Para este caso, teremos o seguinte criterio de classificagao: 

Se p. > 0,3 —> a observagao i devera ser classificada como evento. 

Se p < 0,3 —» a observagao i devera ser classificada como nao evento. 


Tabela 13.12 Tabela de classificagao para a amostra completa (cutoff = 0,3). 



Incidencia Real do Evento 

Incidencia Real do Nao Evento 

Classificado como Evento 

57 

13 

Classificado como Nao Evento 

2 

28 


Eficiencia Global do Modelo 

0,8500 

Sensitividade 

0,9661 

Especificidade 

0,6829 


Em comparagao aos valores obtidos para um cutoff de 0,5, podemos perceber, neste caso (cutoff de 0,3), que, 
enquanto a sensitividade apresenta um pequeno aumento, a especificidade e reduzida de forma um pouco mais 
acentuada, o que resulta, no ambito geral, numa redugao percentual da eficiencia global do modelo. 

Vamos agora fazer mais uma alteragao no cutoff, que passara, por exemplo, a ser 0,7. Para esta nova situagao, 
teremos o seguinte criterio de classificagao: 

Se p > 0,7 —> a observagao i devera ser classificada como evento. 

Se p < 0,7 —» a observagao i devera ser classificada como nao evento. 

A Tabela 13.13 traz esta nova classificagao, com os calculos da eficiencia global do modelo, da sensitividade e 
da especificidade. 


Tabela 13.13 Tabela de classificagao para a amostra completa (cutoff = 0,7). 



Incidencia Real do Evento 

Incidencia Real do Nao Evento 

Classificado como Evento 

47 

5 

Classificado como Nao Evento 

12 

36 


Eficiencia Global do Modelo 

0,8300 

Sensitividade 

0,7966 

Especificidade 

0,8780 


Neste caso, verificamos outro comportamento, ou seja, enquanto a sensitividade apresenta uma redugao con- 
sideravel, a especificidade aumenta. Podemos inclusive perceber que a taxa de acerto para aqueles que sao evento 
passa a ser menor do que a taxa de acerto para os que nao sao evento. Entretanto, a eficiencia geral do modelo, 
com cutoff de 0,7, tambem apresenta uma redugao percentual em relagao ao modelo com cutoff de 0,5. 

Esta analise de sensibilidade pode ser feita com qualquer valor de cutoff entre 0 e 1, o que permite que o pes- 
quisador possa tomar uma decisao no sentido de definir um cutoff que atenda aos seus objetivos de previsao. Se, 
por exemplo, o objetivo for o de maximizar a eficiencia global do modelo, pode ser utilizado um determinado 
cutoff que, como sabemos, podera gerar valores de sensitividade ou de especificidade nao maximizados. Se, por 
outro lado, o objetivo for o de maximizar a sensitividade, ou seja, a taxa de acerto para aqueles que sao evento, 
podera ser definido outro cutoff que nao necessariamente aquele que maximizara a eficiencia global do modelo. 
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Por fim, de maneira analoga, se houver o intuito de maximizar a taxa de acerto para as observances que nao sao 
evento (especificidade), outro cutoff ainda podera ser definido. 

Em outras palavras, a analise de sensibilidade e elaborada com base na teoria subjacente a cada estudo e le¬ 
va em consideranao as escolhas desejadas pelo pesquisador em termos de previsao de ocorrencia do evento para 
observances nao presentes na amostra, sendo, portanto, uma analise gerencial e estrategica sobre o fenomeno que 
se esta investigando. 

Em trabalhos academicos e em relatorios gerenciais de diversas organizanoes, e comum que sejam apresentados 
e discutidos alguns graficos da analise de sensibilidade. Os mais comuns sao os conhecidos por curva de sen¬ 
sibilidade e curva ROC (.Receiver Operating Characteristic), que apresentam finalidades distintas. Enquanto 
a curva de sensibilidade e um grafico que apresenta os valores da sensitividade e da especificidade em funnao 
dos diversos valores de cutoff, a curva ROC e um grafico que apresenta a varianao da sensitividade em funnao de 
(1 - especificidade). 

Para os dados calculados no nosso exemplo, apresentamos a curva de sensibilidade (Figura 13.14) e a curva 
ROC (Figura 13.15). Embora nao estejam completasja que foram utilizados apenas tres valores de cutoff (0,3,0,5 
e 0,7), tais curvas ja permitem que sejam elaboradas algumas analises. 



Figura 13.14 Curva de sensibilidade para tres valores de cutoff. 


Por meio da curva de sensibilidade, podemos verificar que e possivel definir o cutoff que iguala a sensitividade 
com a especificidade, ou seja, o cutoff que faz com que a taxa de acerto de previsao para aqueles que serao evento 
seja igual a taxa de acerto para aqueles que nao serao evento. E importante mencionar, contudo, que este cutoff 
nao garante que a eficiencia global do modelo seja a maxima possivel. 

Alem disso, a curva de sensibilidade permite que o pesquisador avalie o trade off entre sensitividade e especi¬ 
ficidade quando da alteranao do cutoff, ja que, em muitos casos, conforme discutido,o objetivo da previsao pode 
ser o de aumentar a taxa de acerto para aqueles que serao evento sem que haja uma perda consideravel de taxa 
de acerto para aqueles que nao serao evento. 

A curva ROC mostra o comportamento propriamente dito do trade off entre sensitividade e especificidade e, 
ao trazer, no eixo das abscissas, os valores de (1 - especificidade), apresenta formato convexo em relanao ao ponto 
(0, 1). Desta forma, um determinado modelo com maior area abaixo da curva ROC apresenta maior eficiencia 
global de previsao, combinadas todas as possibilidades de cutoff e, assim, a sua escolha deve ser preferivel quando 
da comparanao com outro modelo com menor area abaixo da curva ROC. Em outras palavras, se um pesquisador 
desejar,por exemplo, incluir novas variaveis explicativas na modelagem, a comparanao do desempenho global dos 
modelos podera ser elaborada com base na area abaixo da curva ROC, ja que, quanto maior a sua convexidade 
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Figura 13.15 Curva ROC para tres valores de cutoff. 



Figura 13.16 Criterio de escolha do modelo com maior area abaixo da curva ROC. 


em rela^ao ao ponto (0, 1), maior a sua area (maior sensitividade e maior especificidade) e, consequentemente, 
melhor o modelo estimado para efeitos de previsao. A Figura 13.16 apresenta, de forma ilustrativa, este conceito. 

Segundo Swets (1996), a curva ROC (Receiver Operating Characteristic), possui este nome porque compara 
o comportamento de altera^ao de duas caracteristicas operacionais do modelo (sensitividade e especificidade). 
Foi primeiramente desenvolvida e utilizada por engenheiros na Segunda Guerra Mundial quando do estudo 
para detec^ao de objetos inimigos em batalhas. Na sequencia, foi logo introduzida na Psicologia para a inves- 
tiga^ao das detec^oes perceptuais de determinados estimulos e, atualmente, e bastante utilizada em campos da 
Medicina, como a radiologia, e em diversos campos das ciencias sociais aplicadas, como Economia e Finan^as. 
Neste caso especifico, e consideravelmente utilizada em modelos de gestao de risco de credito e de probabi- 
lidade de default. 
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Nas se<;6es 13.4 e 13.5 apresentaremos a curva de sensibilidade e a curva ROC elaboradas por meio dos sof¬ 
twares Stata e SPSS, respectivamente, com todas as possibilidades de valores de cutoff entre 0 e 1 para o modelo 
final estimado, inclusive com o calculo da respectiva area abaixo da curva ROC. 


13.3. O MODELO DE REGRESSAO LOGISTICA MULTINOMIAL 

Quando a variavel dependente que representa o fenomeno em estudo e qualitativa, porem oferece mais de 
duas possibilidades de resposta (categorias), devemos fazer uso da regressao logistica multinomial para estimar- 
mos as probabilidades de ocorrencia de cada alternativa. Para tanto, precisamos definir inicialmente a categoria 
de referenda. 

Imaginemos uma situa^ao em que a variavel dependente se apresenta na forma qualitativa com tres catego¬ 
rias possiveis de resposta (0,1 ou 2). Se a categoria de referenda escolhida for a categoria 0, teremos duas outras 
possibilidades de evento em rela^ao a esta categoria, que serao representadas pelas categorias 1 e 2 e, dessa forma, 
serao definidos dois vetores de variaveis explicativas com os respectivos parametros estimados, ou seja, dois logi- 
tos, como segue: 

z. = a 1 +p ll .X u +p 21 .X 2i +... + p kv X ki (13.23) 

Z, 2 = a 2 + p i2 .X u +P 22 .X 2i +... + P k2 .X ki (13.24) 

em que o numero do logito aparece agora no subscrito de cada parametro a ser estimado. 

Assim, de maneira generica, se a variavel dependente que representa o fenomeno em estudo apresentar M 
categorias de resposta, o numero de logitos estimados sera (M— 1) e, a partir dos mesmos, poderemos estimar as 
probabilidades de ocorrencia de cada uma das categorias. A expressao geral do logito Z. (m = 0, 1, ..., M— 1) 
para um modelo em que a variavel dependente assume M categorias de resposta e: 

+p lm .X li +p 2m .X 2i +...+p km .X ki (13.25) 

z 

em que Z. q = 0 e, portanto, e 10 = 1. 

Ate o presente momento, neste capitulo, estavamos trabalhando com duas categorias e, consequentemente, 
apenas um logito Z . Dessa forma, as probabilidades de ocorrencia do nao evento e do evento eram calculadas, 
respectivamente, por meio das seguintes expressoes: 

Probabilidade de ocorrencia do nao evento: 

l ~pi = ~r~r ( 13 - 26 ) 

1 + e ' 


Probabilidade de ocorrencia do evento: 


Pi = 


1 + e 


(13.27) 


Ja para tres categorias, e com base nas expressoes (13.23) e (13.24), podemos estimar a probabilidade de ocor¬ 
rencia da categoria de referenda 0 e as probabilidades de ocorrencia dos dois eventos distintos, representados pe¬ 
las categorias 1 e 2. Dessa forma, as expressoes dessas probabilidades podem ser escritas da seguinte forma: 


Probabilidade de ocorrencia da categoria 0 (referenda): 

1 

Pi z z 

0 l + e“+e' 2 


(13.28) 


Probabilidade de ocorrencia da categoria 1: 
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Probabilidade de ocorrencia da categoria 2: 


Pi , = 


1 + e ' +e 


(13.30) 


de modo que a soma das probabilidades de ocorrencia dos eventos, representados pelas distintas categorias, sera 
sempre 1. 

Na forma completa, as expressoes (13.28), (13.29) e (13.30) podem ser escritas, respectivamente, como segue: 


= _ 1 _ 

P‘o j_j_ t) (a 2 +/j|2-X 1 ,+/3 2 2.X 2 ,+.-.+/3 t2 .X fe ) 


(13.31) 


g (a i +p n .x li +p 21 .x 2 i +...+p kV x ki ) 

Ph | _|_ g ( a i+A i - X]; + Ai • X2 A t ■ X(.f) ^ ^ (a 2 +A 2 - X( ,■+A 2 • x 2 A 2 ■ Xfa ) 


(13.32) 


^(« 2 +A2 - X li+p22- X 2i + ~ + Pk2- X ki) 

P '* 2 | _|_ e («l+Al-^l/+Al ^2,+-- +Al-^i) g{ a 2 + fil2- X li + p22- X 2i + "- + Pk2 X ki) 


(13.33) 


De maneira geral, para um modelo em que a variavel dependente assume M categorias de resposta, podemos 
escrever a expressao das probabilidades (m = 0,1,..., M— 1) da seguinte forma: 

= m=i- (13.34) 

m —0 

Analogamente ao procedimento elaborado nas se^oes 13.2.1, 13.2.2 e 13.2.3, iremos agora estimar os para- 
metros das expressoes (13.23) e (13.24) por meio de um exemplo. Iremos tambem avaliar a significancia estatisti- 
ca geral do modelo e dos parametros, bem como estimar os seus intervalos de confian^a a um determinado nivel 
de significancia. Para tanto, faremos uso novamente, neste momento, do Excel. 


13.3.1. Estima^ao do modelo de regressao logistica multinomial por maxima 
verossimilhan^a 

Apresentaremos os conceitos pertinentes a estima^ao por maxima verossimilhan^a dos parametros do modelo 
de regressao logistica multinomial por meio de um exemplo similar ao desenvolvido ao longo da se^ao anterior. 

Imagine, agora, que o nosso incansavel professor nao esteja interessado somente em estudar o que leva os alu- 
nos a chegarem ou nao atrasados a escola. Neste momento, ele deseja saber tambem se os alunos chegam atrasados 
a primeira aula ou a segunda aula. Em outras palavras, o professor agora tern o interesse em investigar se algumas 
variaveis relativas ao trajeto dos alunos ate a escola influenciam a probabilidade de nao se chegar atrasado ou de 
se chegar atrasado a primeira aula ou a segunda aula. Logo, a variavel dependente passa a ter tres categorias: nao 
chegar atrasado , chegar atrasado a primeira aula e chegar atrasado a segunda aula . 

Sendo assim, o professor elaborou uma pesquisa com os mesmos 100 alunos da escola onde leciona, porem a 
realizou em outro dia. Como alguns alunos ja estavam um pouco cansados de responder a tantas perguntas ulti- 
mamente, o professor, alem da variavel referente ao fenomeno a ser estudado, resolveu perguntar apenas sobre a 
distancia ( dist) e sobre o numero de semaforos (sem) pelos quais cada um havia passado naquele dia ao se deslocar 
para a escola. Parte do banco de dados elaborado encontra-se naTabela 13.14. 

Conforme podemos verificar, a variavel dependente assume agora tres distintos valores, que nada mais sao do 
que rotulos ( labels ) referentes a cada uma das tres categorias de resposta (M = 3). E comum, infelizmente, que 
pesquisadores principiantes elaborem modelos, por exemplo, de regressao multipla, assumindo que a variavel de¬ 
pendente e quantitativaja que apresenta numeros em sua coluna. Conforme ja discutido na se^ao anterior, isso 
e um erro grave! 

O banco de dados completo deste novo exemplo encontra-se no arquivo AtrasadoMultinomial.xls. 



640 Manual de Analise de Dados: Estatistica e Modelagem Multivariada com Excel®, SPSS® e Stata 1 


Tabela 13.14 Exemplo: atraso (nao, sim a primeira aula ou sim a segunda aula) x distancia 
percorrida e quantidade de semaforos. 


Estudante 

Chegou atrasado a escola (Nao = 0; Sim 
a primeira aula = 1; 

Sim a segunda aula = 2) 

( y ) 

Distancia percorrida ate 
a escola (quilometros) 

<*„) 

Quantidade 
de semaforos 

<**> 

Gabriela 

2 

20,5 

15 

Patricia 

2 

21,3 

18 

Gustavo 

2 

21,4 

16 

Leticia 

2 

31,5 

15 

Luiz Ovldio 

2 

17,5 

16 

Leonor 

2 

21,5 

18 

Dalila 

2 

21,5 

18 

Antonio 

2 

23,4 

18 

Julia 

2 

22,7 

18 

Mariana 

2 

22,7 

18 


Rodrigo 

1 

16,0 

16 


Estela 

0 

1,0 

13 


As expressoes dos logitos que desejamos estimar sao, portanto: 

Z. =0C 1 + (3 n .dist t + P 21 .sem { 

Z i 2 = 0C 2 + Pl2 ' dist , + Pii- Sem i 

que se referem, respectivamente, aos eventos 1 e 2 apresentados naTabela 13.14. Note que o evento representado 
pelo rotulo 0 refere-se a categoria de referenda. 

Logo, com base nas expressoes (13.31), (13.32) e (13.33), podemos escrever as expressoes das probabilida- 
des estimadas de ocorrencia de cada evento correspondente a cada categoria da variavel dependente. Sendo 
assim, temos: 

__1_ 

ft 1 + e ( a i + Al-M+fti -semi) _j_ e (a 2 +Pl2.disti+Pn-semi) 

e (a l +p n .dist i +P 21 .sem i ) 

ft j_|_ e ( a i + Pn dis t i +p 2 \-sem i ) + ^(a 2 +p l 2 .dist i +p 22 .sem i ) 

^(CC 2 +P 12 .disti+fi 22 .semi ) 

ft j _|_ e (a 1 +p n .dist i +p2i- se m i ) e (a 2 +p x2 

em que Pi 0 , Pi, e Pi 2 representam, respectivamente, a probabilidade de que um estudante i nao chegue atrasado 
(categoria 0), a probabilidade de que um estudante i chegue atrasado a primeira aula (categoria 1) e a probabili¬ 
dade de que um estudante i chegue atrasado a segunda aula (categoria 2). 

Para estimarmos os parametros das expressoes de probabilidade, faremos novamente uso da estima^ao por ma¬ 
xima verossimilhan^a. Genericamente, na regressao logistica multinomial, em que a variavel dependente segue 
uma distribui^ao binomial, uma observa<;ao i pode incidir num determinado evento de interesse, dados M 
eventos possiveis, conforme estudamos no Capitulo 5, e, portanto, a probabilidade de ocorrencia A* (m — 0,1, 
..., M— 1) deste especifico evento pode ser escrita da seguinte maneira: 

m- 1 y. 

p(^j=nu.) 

m=0 


(13.35) 




Modelos de Regressao Logistica Binaria e Multinomial 641 


Para uma amostra com n observances, podemos definir a fun£ao de verossimilhanna ( likelihood function) da se- 
guinte forma: 


n m —i 

j-IHHiO 


(13.36) 


de onde vem, a partir da expressao (13.34), que: 


^=nn 


n M —1 Zs 

"TTT e 


(13.37) 


Analogamente ao procedimento adotado quando do estudo da regressao logistica binaria, iremos aqui traba- 
lhar com o logaritmo da fun£ao de verossimilhanna, o que faz com que cheguemos a seguinte fun£ao, tambem 
conhecida por log likelihood function: 


,= lm =o £, 


(13.38) 


E, portanto, podemos elaborar uma importante questao: Dadas M categorias da variavel dependente, 
quais os valores dos parametros dos logitos Z. (m = 0, 1, ..., M- 1) representados pela expressao 
(13.25) que fazem com que o valor de LL da expressao (13.38) seja maximizado? Esta fundamental 
questao e a chave central para a elaboranao da estimanao dos parametros da regressao logistica multinomial por 
maxima verossimilhanna (ou maximum likelihood estimation ), e pode ser respondida com o uso de ferramentas de 
programanao linear, a fim de que seja solucionado o problema com a seguinte funnao-objetivo: 


= (rj-ln T^r 
i=1 M=0 


(13.39) 


Voltando ao nosso exemplo, iremos resolver este problema com o uso da ferramenta Solver do Excel. Para 
tanto, devemos abrir o arquivo Atrasad 0 Multin 0 mialMaximaVer 0 ssimilhan 9 a.xls, que servira de auxilio 
para o calculo dos parametros. 

Neste arquivo, alem da variavel dependente e das variaveis explicativas, foram criadas tres variaveis Y im (m — 0, 
1, 2) referentes as tres categorias da variavel dependente, e este procedimento deve ser feito a fim de que possa 
ser valida a expressao (13.35). Estas variaveis foram criadas com base no criterio apresentado naTabela 13.15. 

Alem disso, outras seis novas variaveis tambem foram criadas e correspondem, respectivamente, aos logitos 
Z ;i e Z i2 , as probabilidades Pi 0 , e Pi 2 e ao logaritmo da fun^ao de verossimilhanna LL. para cada observa- 
nao.ATabela 13.16 mostra parte dos resultados obtidos quando todos os parametros forem iguais a 0. 


Tabela 13.15 Criterio para crianao das variaveis Y im {m = 0,1,2). 

i 1 v. r 
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Tabela T3.16 Calculo de LL quando a 1 = /3 n = /3 21 = a 2 - /3 12 = /3 22 = 0. 


Estudante 

y 

Y, 

V* 


Xu 



z k 

A 

Pk 

Pk 

LL. 

m=0 

Gabriela 

2 

0 

0 

1 

20,5 

15 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

Patricia 

2 

0 

0 

1 

21,3 

18 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

Gustavo 

2 

0 

0 

1 

21,4 

16 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

Leticia 

2 

0 

0 

1 

31,5 

15 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

Luiz 

Ovidio 

2 

0 

0 

1 

17,5 

16 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

Leonor 

2 

0 

0 

1 

21,5 

18 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

Dalila 

2 

0 

0 

1 

21,5 

18 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

Antonio 

2 

0 

0 

1 

23,4 

18 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

Julia 

2 

0 

0 

1 

22,7 

18 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

Mariana 

2 

0 

0 

1 

22,7 

18 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

... 

Rodrigo 

1 

0 

1 

0 

16,0 

16 

0 

0 

0,33 

0,33 

0,33 

-1,09861 

... 

Estela 

0 

1 

0 

0 

1,0 

13 

0 0 

0,33 

0,33 

0,33 

-1,09861 

Somatoria 

100 2 

i=l m=0 

s 

jg 

-109,86123 


Apenas para efeitos didaticos, apresentamos a seguir o calculo de LL de uma observa^ao em que Y. — 2 e 
quando todos os parametros forem iguais a zero: 

LL = I[(V. ) - ln (pt m )] = ( y i0 ) - In (pl„ ) + ( y il ) - ln (Pi, ) + ( Y 12 ) •^ (p h ) 

m =0 

= (0) .In (0,33) 4- (0) .In (0,33) 4- (1) .In (0,33) = -1,09861 


A Figura 13.17 apresenta parte das observances presentes no arquivo AtrasadoMultinomialMaximaVeros- 
similhan 9 a.xls. 



A 

B 

c 

D 

E 

F 

G 

H 

1 

j 

K 

L 

M 

.N.1._.Q 1 P I 

1 

Estifdante 

Atrasado (Y) 

Y«o 

Y n 

Y,I 

Oistancia(X,) 

Semaforos (X?) 

Zn 


. Pi*. 

....Pl.t....- 

P» _ 

LL, 


2 

Gabriela 

2 

0 

0 

1 

20,5 

15 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 

3 

Patricia 

2 

0 

0 

1 

21,3 

18 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 

oi | 0,0000 | 

4 

Gustavo 

2 

0 

0 

1 

21,4 

16 

0 

0 

0,33333 

0,33333 

0,33333 

-1.09861 


5 

Leticia 

2 

0 

0 

1 

31,5 

15 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 

P11 I 0,0000 1 

6 

Luiz Ovidio 

2 

0 

0 

1 

17.5 

16 

Q 

0 

0,33333 

0,33333 

0,33333 

-1,09861 


7 

Leonor 

2 

0 

0 

1 

21,5 

18 

0 

0 

0,33333 

0.33333 

0,33333 

-1,09861 

Pzi 1 0,0000 I 

8 

Dalila 

2 

0 

0 

1 

21.5 

18 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 


9 

Ant6mo 

2 

0 

0 

1 

23,4 

18 

0 

0 

0,33333 

0,33333 

0,33333 

-1.09861 

02 I 0,0000 I 

10 

Julia 

2 

0 

0 

1 

22,7 

18 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 


11 

Mariana 

2 

0 

0 

1 

22,7 

18 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 

&12 | 0,0000 ) 

12 

Roberto 

2 

0 

0 

1 

21,7 

18 

0 

0 

0,33333 

0,33333 

0.33333 

-1,09861 


13 

Renata 

2 

0 

0 

1 

19,0 

18 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 

p22 I 0,0000 ] 

14 

Guilherme 

2 

0 

0 

1 

26,4 

18 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 


"is 

Rodrigo 

1 

0 

1 

0 

16,0 

16 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 

16 

Giulia 

2 

0 

0 

1 

19,0 

18 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 

17 

Felipe 

2 

0 

0 

1 

20,0 

15 

0 

0 

0,33333 

0,33333 

0^33333 

-1,09861 

18 

Karina 

2 

0 

0 

1 

22,0 

18 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 

19 

Pietro 

2 

0 

0 

1 

19,2 

18 

0 

0 

0,33333 

0,33333 

0.33333 

-1,09861 

20 

Cecilia 

2 

0 

0 

1 

21.0 

18 

o' 

0 

0,33333 

0,33333 

0,33333 

-1,09861 

21 

Gisele 

2 

0 

0 

1 

20,0 

14 

15 

0 

“ 0 ” 

0 

0 

0,33333 

0,33333 

0,33333 

0,33333 

0,33333 

0,33333 

-1,09861 

22 

Elaine 

- — 

0 

1 

0 

22,0 

-1,09861 

23 

Kamai 

2 

0 

0 

1 

20JL 

17 

0 

0 

0,33333 

0,33333 

0.33333 

-1,09861 

24 

Rodolfo 

2 

0 

0 

1 

20,0 

18 

0 

0 

0,33333 

0,33333 

0,33333 

-1.09861 

25 

Pilar 

2 

0 

0 

1 

21j0 

13 

0 

0 

0,33333 

0,33333 

0,33333 

-1,09861 

26 

Vivian 

1 

0 

1 

0 

16.7 

15 

0 

0 

0,33333 

0,33333 

0,33333 

0,33333 

0,33333 

0.33333 

-1,09861 

27 

Danielle 

0 

1 

0 

0 

17,0 

10 

0 

0 

0,33333 

0,33333 

-1J39861 

-1.09861 

28 

Juliana 

0 

1 

0 

■ 0 1 

14,4 

10 

'.b. 

0 

0,33333 

0,33333 

101 

Estela 

0 

1 

0 

6] 

1,0 

13 

0 

0 

0.33333 

0,33333 

-1.09861 

102 

103 


Somat6riaLLi | -109,86123| 


Figura 13.17 Dados do arquivo AtrasadoMultinomialMaximaVerossimilhanga.xls. 
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Conforme discutimos na se^ao 13.2.1, aqui tambem deve haver uma combina^ao otima de valores dos pa¬ 
rametros, de modo que a fun^ao-objetivo apresentada na expressao (13.39) seja obedecida, ou seja, que o valor 
da somatoria do logaritmo da fungao de verossimilhan^a seja o maximo possivel. Recorreremos novamente ao 
Solver do Excel para resolver este problema. 

A fun^ao-objetivo esta na celula Ml03, que sera a nossa celula de destino e que devera ser maximizada. Os 
parametros a v P 1V P 2V fi 12 e /3 22 , cujos valores estao nas celulas P3, P5, P7, P9, Pll e P13, respectivamente, sao 
as celulas variaveis. A janela do Solver ficara conforme mostra a Figura 13.18. 

Ao clicarmos em Resolver e em OK, obteremos a solu^ao otima do problema de programa^ao linear. 
ATabela 13.17 mostra parte dos valores obtidos. 



Ffigura 13.18 Solver - Maximizagao da somatoria do logaritmo da fun^ao de verossimilhan^a 
para o modelo de regressao logistica multinomial. 


O valor maximo possivel da somatoria do logaritmo da fungao de verossimilhan^a e LL ^ — -24,51180. A re- 
solu^ao deste problema gerou as seguintes estimativas dos parametros: 

a t = -33,135 
P n = 0,559 
/3 21 = 1,670 
a 2 = -62,292 
P l2 = 1,078 
P 22 = 2,895 
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Tabela 13.17 Vafores obtidos quando da maximiza^ao de LL para o modelo de regressao logistica multinomial. 


Estudante 

Y. 

Y * 


y , 2 

x „ 



z . 

P.„ 


Pi , 

LL. 

i[(n)- in (^)] 

m= 0 

Gabriela 

2 

0 

0 

1 

20,5 

15 

3,37036 

3,23816 

0,01799 

0,52341 

0,45860 

-0,77959 

Patricia 

2 

0 

0 

1 

21,3 

18 

8,82883 

12,78751 

0,00000 

0,01873 

0,98127 

-0,01891 

Gustavo 

2 

0 

0 

1 

21,4 

16 

5,54391 

7,10441 

0,00068 

0,17346 

0,82586 

-0,19133 

Leticia 

2 

0 

0 

1 

31,5 

15 

9,51977 

15,10301 

0,00000 

0,00375 

0,99625 

-0,00375 

Luiz 

Ovidio 

2 

0 

0 

1 

17,5 

16 

3,36367 

2,89778 

0,02082 

0,60162 

0,37756 

-0,97402 

Leonor 

2 

0 

0 

1 

21,5 

18 

8,94064 

13,00323 

0,00000 

0,01691 

0,98308 

-0,01706 

Dalila 

2 

0 

0 

1 

21,5 

18 

8,94064 

13,00323 

0,00000 

0,01691 

0,98308 

-0,01706 

Antonio 

2 

0 

0 

1 

23,4 

18 

10,00281 

15,05262 

0,00000 

0,00637 

0,99363 

-0,00639 

Julia 

2 

0 

0 

1 

22,7 

18 

9,61149 

14,29758 

0,00000 

0,00914 

0,99086 

-0,00918 

Mariana 

2 

0 

0 

1 

22,7 

18 

9,61149 

14,29758 

0,00000 

0,00914 

0,99086 

-0,00918 

... 

Rodrigo 

1 

0 

1 

0 

16,0 

16 

2,52511 

1,27985 

0,05852 

0,73104 

0,21044 

-0,31329 

... 

Estela 

0 

1 

0 

0 

1,0 

13 

0 -10,87168 

-23,58594 

0,99998 

0,00002 

0,00000 

Somatoria 

100 2 

LL= II 

i=l m= 0 

_(X,)-ln(^ 


-24,51180 


e, desta forma, os logitos Z. e podem ser escritos da seguinte forma: 

Z^ = —33,135 + 0, 559.dist. + 1,670.sera. 


Z =—62,292 + 1,078 .dist. +2,895.sera. 

*2 1 1 

A Figura 13.19 apresenta parte dos resultados obtidos pela modelagem no arquivo AtrasadoMultinomial- 
MaximaVer 0 ssimilhan 9 a.xls. 

Com base nas expressoes dos logitos Z { e Z^ , podemos escrever as expressoes das probabilidades de ocor- 
rencia de cada uma das categorias da variavel dependente, como segue: 

Probabilidade de um estudante i nao chegar atrasado (categoria 0): 


A , (-33,135+0,559.^+1, 670.sent:) . (-62,292+1,078. fc+2,895. sem { ) 

l + e v ; +e v ' 


Probabilidade de um estudante i chegar atrasado a primeira aula (categoria 1): 


(-33,135+0,559.dt5f,+l,670.sem,) 


1 + e 


(-33,135+0,559.^+1,670.^) (-62,292+1,078.^+2,895. sem,- 


Probabilidade de um estudante i chegar atrasado a segunda aula (categoria 2): 

^ (— 62 , 292 + 1 , 078 .distj + 2 , 895 . sem ^) 

Pi 2 ~ 7 ~ (— 33 , 135 + 0 , 559 . dist: + 1 , 670 . sent :) . (- 62 , 292 + 1 , 078 . dist t +2 , 895 . sem { ) 

l + e v ' + e v ' 

Tendo sido elaborada a estima^ao por maxima verossimilhan^a dos parametros das equates de probabi¬ 
lidade de ocorrencia de cada uma das categorias da variavel dependente, podemos elaborar a classifica^ao das 
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A 

B 

c 

D 

E 

F 

G 

H 

I 

J 

K 

L 

M 

N 1 0 i P 1! 

1 

Estudante 

Atrasado (Y) 


Y.. 

Y« 

Oistancia (X,) 

Semaforos (X,) 

.z.« .. 


- .. 

.Pm. 

.P* _ 

LL, 


2 

Gabriela 

2 

0 

0 

1 

20,5 

15 

3,36938 

3,23724 

0,01801 

0.52339 

0,45860 

-0,77957 

3 

Patricia 

2 

0 

0 

1 

21,3 

18 

8,82617 

12,78452 

0,00000 

0,01874 

0,98126 

-0,01892 

cl, | -33,135 | 

4 

Gustavo 

2 

0 

0 

1 

21,4 

16 

5,54223 

7,10263 

0,00068 

0,17347 

0,82585 

-0,19134 


5 

Leticia 

2 

0 

0 

1 

31,5 

15 

9,51650 

15,09930 

0,00000 

0,00375 

0,99625 

-0,00376 

Pii | 0,559 | 

6 

Utiz Ovfdio 

2 

0 

0 

1 

17,5 

16 

3,36280 

2,89699 

0,02084 

0,60159 

0,37757 

-0,97399 


7 

Leonor 

2 

0 

0 

1 

21,5 

18 

8,93793 

13,00019 

0,00000 

0,01692 

0,98308 

-0,01707 

821 | 1,570 1 

8 

Oalila 

2 

0 

0 

1 

21,5 

18 

8,93793 

13,00019 

0,00000 

0,01692 

0,98308 

-0,01707 


3 

AntSrrto 

2 „ 

0 

0 

1 

23,4 

18 

9,99971 

15,04909 

0.00000 

0,00637 

0,99363 

-0,00639 

ct2 | <52,292 | 

10 

Jdiia 

2 

0 

0 

1 

22,7 

18 

9,60853 

14,29423 

0,00000 

0,00914 

0,99086 

-0,00918 


11 

Manana 

2 

0 

0 

1 

22,7 

18 

9,60853 

14,29423 

0.00000 

0,00914 

0,99086 

-0,00918 

foz | 1.078 | 

12 

Roberto 

2 

0 

0 

1 

21,7 

18 

9,04970 

13,21586 

0,00000 

0,01527 

0,98472 

-0,01539 


13 

Renata 

2 

0 

0 

1 

19,0 

18 

7,54086 

10,30427 

0,00003 

0,05933 

0,94064 

-0,06120 

P22 I 2^95 | 

14 

Guilherme 

2 

0 

0 

1 

26,4 

18 

11,67620 

18,28420 

0,00000 

0,00135 

0,99865 

-0.00135 


IS 

Rodrigo 

1 

0 

V 

0 

16,0 

16 

2,52456 

1,27944 

0,05855 

0,73099 

0,21046 

-0,31335 

16 

Giulia 

2 

0 

0 

1 ' 

19,0 . 

18 

7,54086 

10.30427 

0,00003 

0,05933 

0,94064 

-0,06120 

17 

Felipe 

2 

0 

0 

t 

20.0 

15 

3,08997 

2,69805 

0,02644 

0^58097] 

0.01310 

0,39260 

-0.93497 

18 

Karina 

~2 

0 

0 

.1 

22,0 

18 

9,21735 

13,53937 

0.00000 

0,98690 

-0,01319 

19 

Pietro 

2 

0 

0 

1 

„ 1%2 

18 

7,65263 

10^51994 

0,00003 

0,00000 

0,05379 

0,02183 

0,94618 

0,97817 

-0,05532 
-0,02207 ' 

20 

Cecilia 

2 

0 

0 

1 ~ 

21,0 

18 

8,65852 

“l 2,46100 

21 

Giseie 

2 

0 

o“ 

1 

20,0 

' 14 

1,42006 

-0,19681 

0,16782 

0,69434 

0J 3784 

-1,98166 

22 

Elaine 

1 

o' 

“ 1 

0 

22.0 

15 

4,20762 

4,85479 

0,00509 

0,34188 

0,65303 

-1.07330” 

23 

Karrial __ 

2 

0 

0 

1 

20,0 

17 

6,42978 

8,48777 

0,00018 

0.113231 

0,88659 

-OJ2037 

24 

Rodolfo 

2 

0 

' 0 

1 " 

“ '20,0' 

18 

“8,09969 

' 11,38264 

0,00001 

0,03616 

0,96383 

“ -0.03684 ' 

25 

Pilar 

2 

0 

0 

1 

21.0 

13 

0,30898 

-2,01330 

0,40071 

0,54578j 

0.70953 

0,05351 

-2,92782 

26 

Vivian 

1 

0 

1 

0 

16,7 

15 

1,24583 

-0,86056 

0,20413 

0.08633 

-0,34315 

27 

Danielle 

0 

1 

0 

0 

17.0 

10 

-6,93606 

-15,01136 
-17.81512 

0^99903 

6,99977 

0,00097 

0,00023 

0,00000 

0,00000 

-0,00097 

-0,00023 

28 

Juliana 

0 

1 

0 " 

“ 0. 

14,4 

10 

-8,38901 

101 

Estela 

0 

1 

0 

0 

_LS_ 

13 

-10.86760 

-23.58068 

0.99398 

0.00002 

0.00000 

-0.00002 

102 

103 

SomatGriaLU | -24,51180| 


Figura 13.19 Obten^ao dos parametros da regressao logistica multinomial quando da maximiza^ao de LL pelo Solver. 


observances e definir a eficiencia global do modelo de regressao logistica multinomial. Diferentemente 
da regressao logistica binaria, em que a classifica^ao e elaborada com base na defini^ao de um cutoff, na regressao 
logistica multinomial a classifica^ao de cada observa^ao e feita com base na maior probabilidade entre aquelas 
calculadas (Pi 0 ,Pi x ou Pi 2 ). Assim, por exemplo, como a observa^ao 1 (Gabriela) apresentou Pi 0 = 0,018, Pi x — 
0,523 e Pi 2 = 0,459, devemos classifica-la como categoria 1, ou seja, por meio do nosso modelo espera-se que a 
Gabriela chegue atrasada a primeira aula. Entretanto, podemos verificar que, na verdade, esta aluna chegou atra- 
sada a segunda aula e, portanto, para este caso, nao obtivemos um acerto. 

A Tabela 13.18 apresenta a classifica^ao para a nossa amostra completa, com enfase para os percentuais de 
acerto para cada categoria da variavel dependente, destacando tambem a eficiencia global do modelo (percentual 
total de acerto). 

Por meio da analise desta tabela, podemos verificar que o modelo apresenta um percentual total de acerto 
de 89,0%. Entretanto, o modelo apresenta um maior percentual de acerto (95,9%) para os casos em que houver 
indica^ao de que nao ocorrera atraso ao se chegar a escola. Por outro lado, quando houver indicios de que um 
aluno chegara atrasado a primeira aula, o modelo tera um percentual de acerto menor (75,0%). 

Partiremos agora para o estudo da significance estatistica geral do modelo obtido, bem como das significan- 
cias estatisticas dos proprios parametros, como fizemos na se^ao 13.2. 


Tabela 13.18 Tabela de classifica^ao para a amostra completa. 


Observado 

Classificado 

Nao chegou atrasado 

Chegou atrasado 
a primeira aula 

Chegou atrasado 
a segunda aula 

Percentual 
de Acerto 

Nao chegou atrasado 

47 

2 

0 

95,9% 

Chegou atrasado a 
primeira aula 

1 

12 

3 

75,0% 

Chegou atrasado a 
segunda aula 

0 

5 

30 

85,7% 


Eficiencia Global do Modelo 

89,0% 
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13.3.2. A significance estatistica geral do modelo e dos parametros da regressao 
logistica multinomial 

Assim como na regressao logistica binaria estudada na se^ao 13.2, a modelagem da regressao logistica multi¬ 
nomial tambem oferece as estatisticas referentes ao pseudo R 2 de McFadden e ao J£ 2 , cujos calculos sao elabora- 
dos, respectivamente, com base nas expressoes (13.16) e (13.17), sendo aqui novamente reproduzidas: 

pseudo R 2 = ~ 2 - / - L "~(~ 2 - LL,, a) (13.40) 

~2.LL 0 

X 2 ~ “2. (LL 0 — LL mdx ) (13.41) 

Enquanto o pseudo R 2 de McFadden, conforme ja discutido na se£ao 13.2.2, e bastante limitado em termos 
de informa^ao sobre o ajuste do modelo, podendo ser utilizado quando o pesquisador tiver interesse em compa- 
rar dois modelos distintos, a estatistica X 2 propicia que seja realizado um teste para verifica^ao da existence pro- 
priamente dita do modelo proposto, uma vez que, se todos os parametros estimados /5 jm (j — 1, 2, ..., k; m = 1, 
2, ..., M — 1) forem estatisticamente iguais a 0, o comportamento de altera^ao de cada uma das variaveis expli- 
cativas nao influenciara em absolutamente nada as probabilidades de ocorrencia dos eventos representados pelas 
categorias da variavel dependente. As hipoteses nula e alternativa do teste j^ 2 , para um modelo geral de regressao 
logistica multinomial, sao, respectivamente: 

H o ; £n = K = -= K = K = P22 = - = - A m-i = P 2M -r = -= = 0 

existe pelo menos um (5 jm ^ 0 

Voltando ao nosso exemplo, temos que LL^^, que e o valor maximo possivel da somatoria do logaritmo da 
fun^ao de verossimilhan^a, e igual a -24,51180. Para o calculo de LL Q , que representa o valor maximo possivel 
da somatoria do logaritmo da fun^ao de verossimilhan^a para um modelo que so apresenta as constan- 
tes a x e a 2 e nenhuma variavel explicativa, faremos novamente uso do Solver, por meio do arquivo 
AtrasadoMaltinomialMaximaVerossimilhan9aModeloNulo.xls. As Figuras 13.20 e 13.21 mostram, res¬ 
pectivamente, a janela do Solver e parte dos resultados obtidos pela modelagem neste arquivo. 

Com base no modelo nulo, temos LL Q = -101,01922 e, dessa forma, podemos calcular as seguintes estatisticas: 

j -2.(—101,01922)-[(-2.(-24,51180))] _ 

pseudo R =-= 0,7574 

-2. (-101,01922) 

X\ gL = -2. [-101,01922 - (-24,51180)] = 153,0148 

Para 4 graus de liberdade (numero de parametros jS, ja que ha duas variaveis explicativas e dois logitos), 
temos, por meio daTabela D do apendice do livro, que o X 2 C = 9,488 (X 2 critico para 4 graus de liberdade e 
para o nivel de significance de 5%). Dessa forma, como o X 2 calculado X 2 cai = 153,0148 > X 2 C = 9,488, pode¬ 
mos rejeitar a hipotese nula de que todos os parametros (j = 1,2; m = 1,2) sejam estatisticamente iguais 
a zero. Logo, pelo menos uma variavel X e estatisticamente significante para explicar a probabilidade de ocor¬ 
rencia de pelo menos um dos eventos em estudo. Da mesma forma que o discutido na se^ao 13.2.2, podemos 
definir o seguinte criterio: 

Se valor-P (ou P-value ou Sig. ^ou Prok X 2 J < 0,0S, existe pelo menos um /5 jm ^ 0. 

Alem da significance estatistica geral do modelo, e necessario verificarmos a significancia estatistica de cada 
parametro, por meio da analise das respectivas estatisticas z de Wald, cujas hipoteses nulas e alternativa sao, para os 
parametros <x m (m = 1, 2,..., M— 1) e (j — 1, 2,..., k; m = 1, 2,..., M— 1), respectivamente: 

H 0 : = 0 

H } : a m * 0 

H • Pjm = 0 

H t : Pin. * 0 
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Figura 13.20 Solver - Maximiza^ao da somatoria do logaritmo da fungao de verossimilhan^a 
para o modelo nulo da regressao logistica multinomial. 
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Figura 13.21 Obten^ao dos parametros quando da maxlmiza^ao de LL pelo Solver - modelo 
nulo da regressao logistica multinomial. 


_ fin 

_ 1,670 

se (Pn) 

_ 0,577 

a 2 

-62,292 

s.e.(a 2 ) 

14,675 

_ Aa 

_ 1,078 

s - e -(fia) 

~ 0,302 

_ fin 

_ 2,895 

s - e -(P 22 ) 

~ 0,686 


2,894 


-4,244 


3,570 

4,220 


Como podemos verificar, todas as estatisticas z de Wald calculadas apresentaram valores menores do que 
z = -1,96 ou maiores do que z c = 1,96 (valores criticos ao nivel de significance de 5%, sendo as probabilidades 
na cauda inferior e na cauda superior iguais a 0,025). 

Desta forma, verificamos, para o nosso exemplo, que os criterios: 

Se valor-P (ou P-value ou Sig. z^ou Prob. zj) < 0,05 para OC m , CX m ^0 
e 

Se valor-P (ou P-value ou Sig. z ca pu Prob. zj) < 0,05 para (3 jtn , (3 jm ^ 0 

sao obedecidos. Em outras palavras, as variaveis dist e sem sao estatisticamente significantes, ao mvel de confian^a 
de 95%, para explicar as diferen^as das probabilidades de se chegar atrasado a primeira aula e a segunda aula em 
rela^ao a nao se chegar atrasado. As expressoes destas probabilidades sao aquelas ja estimadas na se^ao 13.3.1 e 
apresentadas ao seu final. 

Desta forma, com base nos modelos probabilisticos finais estimados, podemos propor tres interessantes per- 
guntas, assim como fizemos na se^ao 13.2.2: 

Qual e a probabilidade media estimada de se chegar atrasado a primeira aula ao se deslocar 17 
quilometros e passar por 15 semaforos? 

Como a categoria chegar atrasado a primeira aula e a categoria 1, devemos fazer uso da expressao da probabili¬ 
dade estimada Pi ,. Desta forma, para esta situa^ao, temos que: 

[-33,135+0,559.(17)+1,670.(15)] 

e _ Q "700 

Pl = " 1 [-33,135+0,559.(17)+1,670.(15)] [-62,292+1,078.(l7)+2,895.(15)] ’ 

1 i e • £ 
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Logo, a probabilidade media estimada de se chegar atrasado a primeira aula e, nas concludes informadas, igual a 
72,2%. 

Em media, em quanto se altera a chance de se chegar atrasado a primeira aula, em rela^ao a 
nao chegar atrasado a escola, ao se adotar um percurso 1 quilometro mais longo, mantidas as de- 
mais condi9oes constantes? 

Para respondermos a esta questao, vamos novamente recorrer a expressao (13.3), que podera ser escrita da 
seguinte forma: 

chance Yi=l = e Zix (13.42) 

de modo que, mantidas as demais condi^oes constantes, a chance de se chegar atrasado a primeira aula em rela£ao 
a nao chegar atrasado a escola, ao se adotar um trajeto 1 quilometro mais longo, e: 

chance Y=1 = e 0,559 = 1,749 

Logo, a chance e multiplicada por um fator de 1,749, ou seja, mantidas as demais condi^oes constantes, a 
chance de se chegar atrasado a primeira aula em rela^ao a nao chegar atrasado, ao se adotar um trajeto 1 quilo¬ 
metro mais longo, e, em media, 74,9% maior. Em modelos de regressao logistica multinomial, a chance (odds ratio) 
tambem e chamada de razao de risco relativo ( relative risk ratio). 

Em media, em quanto se altera a chance de se chegar atrasado a segunda aula, em rela9ao a nao 
chegar atrasado, ao se passar por 1 semaforo a mais no percurso ate a escola, mantidas as demais con¬ 
cludes constantes? 

Neste caso, como o evento de interesse refere-se a categoria chegar atrasado a segunda aula, a expressao da chan¬ 
ce passa a ser: 

chance Yi=2 = e 2,895 = 18,081 

Logo, a chance e multiplicada por um fator de 18,081, ou seja, mantidas as demais cond^oes constantes, a 
chance de se chegar atrasado a segunda aula em rela^ao a nao chegar atrasado, ao se passar por 1 semaforo a mais 
no percurso ate a escola, e, em media, 1.708,1% maior. 

Conforme podemos perceber, estes calculos utilizaram sempre as estimativas medias dos parametros. Como 
fizemos na se£ao 13.2, partiremos agora para o estudo dos intervalos de confian 9 a destes parametros. 


13.3.3. Constru^ao dos intervalos de confian^a dos parametros do modelo de regressao 
logistica multinomial 

Os intervalos de confian 9 a dos parametros estimados em uma regressao logistica multinomial tambem sao cal- 
culados por meio da expressao (13.21) apresentada na se£ao 13.2.3. Logo, ao nivel de confian 9 a de 95%, podem 
ser definidos, para os parametros a m (m = 1, 2,..., M- 1) e j 3 pn (j = 1, 2,..., k; m = 1, 2,..., M— 1), respectiva- 
mente, da seguinte forma: 

a m ±l t 96.[,,K)] (13.43) 

/? jm ±l,96.[s.e.(/y] 

em que 1,96 eo^ para o nivel de significancia de 5%. 

Para os dados do nosso exemplo, a Tabela 13.19 apresenta os coeficientes estimados dos parametros CC m 
(m — 1, 2) e P jm (j = 1, 2; m = 1,2) das expressoes das probabilidades de ocorrencia dos eventos de interesse, 
com os respectivos erros-padrao, as estatisticas z de Wald e os intervalos de confian^a para o nivel de significan¬ 
cia de 5%. 

Como ja sabiamos, nenhum intervalo de confian^a contem o zero e, com base nos seus valores, podemos es- 
crever as expressoes dos limites inferior (minimo) e superior (maximo) das probabilidades estimadas de ocorren¬ 
cia de cada uma das categorias da variavel dependente. 
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Tabela 13.19 Calculo dos intervalos de confian<;a dos parametros da regressao logistica multinomial. 


Parametro 

Coeficiente 

Erro—Padrao 
(s.e.) 

z 

Intervalo de Confian 9 a (95%) 

a„-l,96.[„(a m )] 
Pjm - 1>96.[i.e. (J5 jm )] 

a„+l,96.[s.e.(a ra )] 
pj m +l,96.[s.e.(p jm )] 

a x (constante) 

-33,135 

12,183 

-2,720 

-57,014 

-9,256 

(3 n (variavel dist) 

0,559 

0,243 

2,300 

0,082 

1,035 

P 21 (variavel sent) 

1,670 

0,577 

2,894 

0,539 

2,800 

a 2 (constante) 

-62,292 

14,675 

-4,244 

-91,055 

-33,529 

(3 U (variavel dist) 

1,078 

0,302 

3,570 

0,486 

1,671 

f3 22 (variavel sem) 

2,895 

0,686 

4,220 

1,550 

4,239 


Intervalo de Confian^a (95%) da probabilidade estimada de um estudante i nao chegar atrasado 
(categoria 0): 


p^,_ = 


-57,014+0,082.+0,539. sent:) , f-91,055+0,486.^+1,550.^) 

'+6 V ' 


1 + e' 


1 

^Omax _ ^ _j_ (-9,256+1,035.^+2,800.50*,-) (-33,529+1,671.^+4,239.^,) 

Intervalo de Confian^a (95%) da probabilidade estimada de um estudante i chegar atrasado a 
primeira aula (categoria 1): 

^ (-57,014+0 ,082.distj+0 ,539. sem { ) 

A niin ~ ^(-57,014+0,082.^+0,539.5^) ^(-91,055+0,486.^+1,550.5^) 


(-9,256+1,035 .dist +2,800. sem { ) 

_ e K ’ 

Pi l mSx “ ^ + ^(-9,256+1,035.^+2,800.^) + ^(-33,529+1,671.^^+4,239.7^) 

Intervalo de Confian^a (95%) da probabilidade estimada de um estudante i chegar atrasado a 
segunda aula (categoria 2): 


(-91,055+0,486.^+1,550.5^) 


= 


1 + 6 


(-57,014+0,082.^+0,539.5^,) ^(-91,055+0,486.^+1,550.5^ 


^ (—33,529+1,671. +4,239. sem { ) 

Pi2 mix ~ | + ^(-9,256+1,035.^+2,800.5 em { ) + ^(-33,529+1,671.^+4,239.5^) 

Analogamente ao elaborado na se 9 ao 13.2.3, podemos definir a expressao dos intervalos de confian^a das chan¬ 
ces ( odds ou relative risk ratios) de ocorrencia de cada um dos eventos representados pelo subscrito m (m — 1,2, M 
- 1) em rela 9 ao a ocorrencia do evento representado pela categoria 0 (referenda) para cada parametro f5 jm (J = 1, 
2,..., k; m = 1,2,..., M— 1), ao rnvel de confian 9 a de 95%, da seguinte forma: 

e P jm ±l,96[s. e .(Pjm)] (13.44) 

Para os dados do nosso exemplo, e a partir dos valores calculados na Tabela 13.19,vamos elaborar a Tabela 13.20, 
que apresenta os intervalos de confian 9 a das chances ( odds ou relative risk ratios ) de ocorrencia de cada um dos 
eventos em rela 9 ao ao evento de referenda para cada parametro (3 jm (j = 1, 2; m = 1,2). 

Estes valores tambem serao obtidos por meio da modelagem no software Stata, a ser apresentada na proxima 
se9ao. 
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Tabela 13.20 Calculo dos intervalos de confian^a das chances (odds ou relative risk ratios) para cada parametro (3 jm . 


Evento 

Parametro 

Chance 

(Odds) 

Intervalo de Confianfa da Chance (95%) 


,96.[s.e.(jS Jm )] 

J8>+ l,96[s.e.(p jm )] 

Chegar atrasado a 

(variavel dist) 

1,749 

1,085 

2,817 

primeira aula 

/3 21 (variavel sem) 

5,312 

1,715 

16,453 

Chegar atrasado a 

/3 12 (variavel dist) 

2,939 

1,625 

5,318 

segunda aula 

fi 22 (variavel sem) 

18,081 

4,713 

69,363 


13.4. ESTIMA^AO DE MODELOS DE REGRESSAO LOGISTICA BINARIA E MULTINOMIAL 
NO SOFTWARE STATA 

O objetivo desta segao nao e o de discutir novamente todos os conceitos inerentes as estatisticas dos modelos 
de regressao logistica binaria e multinomial, porem propiciar ao pesquisador uma oportunidade de elaboragao 
dos mesmos exemplos explorados ao longo do capitulo por meio do Stata Statistical Software®. A reprodugao de 
suas imagens nesta segao tern autorizagao da StataCorp LP®. 

13.4.1. Regressao logistica binaria no software Stata 

Voltando entao ao primeiro exemplo, lembremos que um professor tinha o interesse em avaliar se a distancia 
percorrida, a quantidade de semaforos, o periodo do dia em que se dava o trajeto e o perfil dos alunos ao volante 
influenciavam o fato de se chegar ou nao atrasado a escola. Ja partiremos para o banco de dados final construi- 
do pelo professor por meio dos questionamentos elaborados ao seu grupo de 100 estudantes. O banco de dados 
encontra-se no arquivo Atrasado.dta e e exatamente igual ao apresentado parcialmente naTabela 13.2. 


. desc 

obs: 

vars: 

size: 

100 

6 

2,600 (99.9% of memory free) 


storage 

variable name type 

display 

format 

value 

label 

variable label 

estudante 

strll 

%lls 



atrasado 

byte 

%8.0g 

atrasado 

chegou atrasado a escola? 

dist 

float 

%9.0g 


distancia percorrida ate a escola (km) 

sem 

byte 

%8.0g 


quantidade de semaforos 

per 

byte 

%8.0g 

per 

periodo do dia 

perfil 

float 

%9.0g 

perfil 

perfil ao volante 

| Sorted by: jf 


Figura 13.22 Descri^ao do banco de dados Atrasado.dta. 


Inicialmente, podemos digitar o comando desc, que faz com que seja possivel analisarmos as caracteristicas 
do banco de dados, como o numero de observagoes, o numero de variaveis e a descri^ao de cada uma delas. A 
Figura 13.22 apresenta este primeiro output do Stata. 

A variavel dependente, que se refere ao fato de se chegar ou nao atrasado a escola, e qualitativa e possui ape- 
nas duas categorias, ja rotuladas no banco de dados como dummy (Nao = 0; Sim = 1). O comando tab oferece a 
distribuigao de frequences de uma variavel qualitativa, com destaque para a quantidade de categorias. Se o pes¬ 
quisador tiver duvidas sobre o numero de categorias, podera recorrer facilmente a este comando. A Figura 13.23 
apresenta a distribuigao de frequencias da variavel dependente atrasado. 

E comum que se discuta sobre a necessidade de igualdade de frequencias entre a categoria de referenda e a 
categoria que representa o evento de interesse quando da estimagao de modelos de regressao logistica binaria. 
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1. tab atrasado 




[ chegou | 

atrasado a | 
escola? | 

Freq. 

Percent 

Cum. 

Nao | 

Sim | 

41 

59 

41.00 

59.00 

41.00 

100.00 

1 Total | 

100 

100.00 



Figura 13.23 Distribui^ao de frequences da variavel otrasado. 


O fato de as frequencias nao serem iguais afetara a probabilidade de ocorrencia do evento de interesse para cada 
observa^ao da amostra, apresentada por meio da expressao (13.11), e, consequentemente, o respectivo logaritmo 
da fun^ao de verossimilhan^a. Entretanto, como o nosso objetivo e estimar um modelo de probabilidade de ocor¬ 
rencia do evento de interesse com base na maximiza^ao da somatoria do logaritmo da fun^ao de verossimilhan^a 
para toda a amostra, respeitando as caracteristicas do proprio banco de dados, nao ha a necessidade de que as 
frequencias das duas categorias sejam iguais. 

Com rela^ao as variaveis explicativas qualitativas, a variavel per tambem possui apenas duas categorias que, no 
banco de dados, ja estao rotuladas como dummy (manha = 1; tarde = 0). Por outro lado, a variavel perfil possui 
tres categorias e, portanto, sera preciso que criemos (n - 1 = 2) dummies. O comando xi i .perfil nos fornecera 
estas duas dummies , nomeadas pelo Stata de _Iperfil_2 e __Iperfil_3. Enquanto as Figuras 13.24 e 13.25 apresentam, 
respectivamente, as distributes de frequencia das variaveis per e perfil, a Figura 13.26 apresenta o procedimento 
para a cria^ao das duas dummies a partir da variavel perfil. 


. tab per 




periodo do | 
dia | 

Freq. 

Percent 

Cum. 

tarde | 
manha 1 

62 

38 

62.00 

38.00 

62.00 

100.00 

Total | 

100 

100.00 



Figura 13.24 Distribute de frequencias da variavel per. 



Figura 13.25 Distributo de frequencias da variavel perfil. 


. xi i.perfil 

i.perfil _ Iperfill-3 _ (naturally coded; Iperfil l omitted) 

Figura 13.26 Criagao das duas dummies a partir da variavel perfil . 

Vamos, entao, a modelagem propriamente dita. Para tanto, devemos digitar o seguinte comando: 

logit atrasado dist sem per _Iperfil_2 _Iperfil_3 

O comando logit elabora uma regressao logistica binaria estimada por maxima verossimilhan^a. Se o pes- 
quisador nao informar o nivel de confian^a desejado para a defini^ao dos intervalos dos parametros estimados, o 
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padrao sera de 95%. Entretanto, se o pesquisador desejar alterar o nivel de confianga dos intervalos dos parametros 
para, por exemplo, 90%, devera digitar o seguinte comando: 

logit atrasado dist sem per _Iperfil_2 _Iperfil_3, level (90) 

Iremos seguir com a analise mantendo o nivel padrao de confianga dos intervalos dos parametros, que e de 
95%. Os outputs encontram-se na Figura 13.27 e sao exatamente iguais aos calculados na segao 13.2. 

Como a regressao logistica binaria faz parte do grupo de modelos conhecidos por Modelos Lineares 
Generalizados ( Generalized Linear Models ), e como a variavel dependente apresenta uma distribuigao de 
Bernoulli, conforme discutido na segao 13.2.1, a estimagao apresentada na Figura 13.27 tambem poderia ter sido 
igualmente obtida por meio da digitagao do seguinte comando: 

glm atrasado dist sem per _Iperfil_2 _Iperfil_J3, family (Bernoulli) 



Inicialmente, podemos verificar que os valores maximos do logaritmo da fungao de verossimilhanga para 
o modelo completo e para o modelo nulo sao, respectivamente, -29,06565 e -67,68585, e sao exatamente 
aqueles calculados e apresentados nas Figuras 13.4 e 13.7, respectivamente. Assim, fazendo uso da expressao 
(13.17), temos que: 

Xl g A. = -2.[-67,68585 - (-29,06568)] = 77,24 com valor - p (ou Prob .J c 2 a) ) = 0,000. 

Logo, com base no teste J£ 2 , podemos rejeitar a hipotese nula de que todos os parametros /3 . (j — 1,2,..., 5) 
sejam estatisticamente iguais a zero ao nivel de significancia de 5%, ou seja, pelo menos uma variavel X e estatis- 
ticamente significante para explicar a probabilidade de ocorrencia do fato de se chegar atrasado a escola. 

Embora o pseudo R 2 de McFadden, conforme discutido, apresente bastante limitagao em relagao a sua inter- 
pretagao, o Stata o calcula, com base na expressao (13.16), exatamente como fizemos na segao 13.2.2. 

0 -2. (-67,68585) -|~(-2. (-29,06568))! 

pseudo R = ---—^---— = 0,5706 

-2. (-67,68585) 
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Por meio da maximiza^ao do logaritmo da fun^ao de verossimilhan^a, estimamos os parametros do modelo, 
que sao exatamente iguais aqueles apresentados na Figura 13.4. Entretanto, conforme discutimos na se^ao 13.2.2, 
a variavel _Iperftl_2 (parametro fi 4 ) nao se mostrou estatisticamente significante para aumentar ou diminuir a pro- 
babilidade de se chegar atrasado a escola na presen^a das demais variaveis explicativas, ao nivel de significancia de 
5%, uma vez que -1,96 < — 1,80 < 1,96 e, portanto, o valor-P da estatistica z de Wald apresentou um valor 

maior do que 0,05. 

A nao rejei^ao da hipotese nula para o parametro j8 4 , ao nivel de significancia de 5%, obriga-nos a esti- 
mar o modelo de regressao logistica binaria por meio do procedimento Stepwise. Antes, porem, da elabora^ao 
deste procedimento, vamos salvar os resultados do modelo completo. Para tanto, devemos digitar o seguinte 
comando: 

Irtest, saving(0) 

Este comando salva as estimativas dos parametros do modelo completo, a fim de que seja possivel elaborarmos, 
adiante, um teste para verifica^ao da adequa^ao do ajuste do modelo completo em compara^ao com o ajuste do 
modelo final estimado por meio do procedimento Stepwise. 

Vamos, entao, elaborar o procedimento Stepwise propriamente dito, por meio da digita^ao do seguinte co¬ 
mando, em que e definido o nivel de significancia do teste z de Wald a partir do qual as variaveis explicativas 
serao excluidas do modelo final. 

stepwise, pr(0.05): logit atrasado dist sem per _Iperfil_2 _Iperfil_3 

Os outputs do modelo final encontram-se na Figura 13.28. 

Analogamente, a estima^ao apresentada na mesma figura tambem poderia ter sido obtida por meio do se¬ 
guinte comando: 

stepwise, pr(0.05): glm atrasado dist sem per _Iperfil_2 __Iperfil_3, 

family(bernoulli) 


. stepwise, pr(0.05): logit atrasado dist sem per _Iperfil_2 _Iperfil_3 
begin with full model 
p = 0.0718 >= 0.0500 removing _Iperfil_2 

Logistic regression Number of obs = 100 

LR chi2(4) = 73.77 


Log likelihood 

= -30.800789 



Prob > 

Pseudo 

chi 2 

R2 

0.0000 

0.5449 

atrasado | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

dist | 

.2041463 

.1011603 

2.02 

0.044 

.0058758 

.4024168 

sem | 

2.920114 

1.010796 

2.89 

0.004 

.9389897 

4.901238 

per | 

-3.776301 

.8466794 

-4.46 

0.000 

-5.435762 

-2.11684 

_Iperfil_3 | 

2.459067 

1.139451 

2.16 

0.031 

.2257837 

4.692351 

_cons | 

-30.93335 

10.63625 

-2.91 

0.004 

-51.78001 

-10.08668 


Note: 0 failures and 2 successes completely determined. 


Figura 13.28 Outputs da regressao logistica binaria com procedimento Stepwise no Stata. 


Antes de analisarmos estes novos outputs, vamos elaborar o teste de razao de verossimilhan^a ( likelihood-ratio 
test) que, conforme discutimos na se^ao 13.2.2, verifica a adequa^ao do ajuste do modelo completo em compa- 
ra^ao com o ajuste do modelo final estimado por meio do procedimento Stepwise. Para tanto, devemos digitar o 
seguinte comando: 


Irtest 
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. lrtest 



Likelihood-ratio test 

LR chi2 (1) = 

3.47 

(Assumption: . nested in LRTEST0) 

Prob > chi2 = 

0.0625 


Figura 13.29 Teste de razao de verossimilhanga para verifica^ao da qualidade do ajuste do modelo final. 


cujo resultado encontra-se na Figura 13.29 e e exatamente igual ao calculado manualmente por meio da expres- 
sao (13.19). 

X 2 XgX = -2.[-30,80079 - (-29,06568)] = 3,47 comvalor - P (ouProb.xh)>0,05. 

Por meio da analise do teste de razao de verossimilhan^a, podemos verificar que a estima^ao do modelo final 
com a exclusao da variavel _I perftl_2 nao alterou a qualidade do ajuste, ao nivel de significancia de 5%, fazendo com 
que o modelo estimado por meio do procedimento Stepwise seja preferivel em rela^ao ao modelo completo es- 
timado com to das as variaveis explicativas. 

Outro teste bastante usual para verifica^ao da qualidade de ajuste do modelo final e o teste de Hosmer-Lemeshow, 
cujo principio consiste em dividir a base de dados em 10 partes por meio dos decis das probabilidades estimadas 
pelo ultimo modelo gerado e, a partir de entao, elaborar um teste X 2 P ara verificar se existem diferen£as signifi- 
cativas entre as frequencias observadas e esperadas do numero de observa^oes em cada um dos 10 grupos. Para 
elaborar este teste no Stata, devemos digitar o seguinte comando: 

estat gof, group(10) table 

em que o termo gof refere-se a expressao goodness-of-fit, ou seja, qualidade do ajuste. 

O output deste teste encontra-se na Figura 13.30. 

Os resultados apresentados nesta figura mostram os grupos formados pelos decis das probabilidades estimadas 
e as quantidades observadas e esperadas de observa^oes por grupo, assim como o resultado do teste X 2 que, P a ~ 
ra 8 graus de liberdade, nao rejeita a hipotese nula de que as frequencias esperadas e observadas sejam iguais, ao 
nivel de significancia de 5%. Portanto, o modelo final estimado nao apresenta problemas em relagao a qualidade 
do ajuste proposto. 

Em rela^ao a este modelo final estimado (Figura 13.28), todas as estatisticas apresentadas, os parametros estima- 
dos com respectivos intervalos de confian^a, os erros-padrao e as estatisticas z de Wald sao exatamente iguais aos 


. estat gof, group(10) table 

Logistic model for atrasado, goodness-of-fit test 


(Table collapsed on quantiles of estimated probabilities) 


+- 

1 

Group | 

Prob | 

Obs__l | 

Exp_l | 

Obs_0 | 

Exp_0 | 

Total 

-+ 

1 










1 

1 1 

0.0376 | 

0 I 

0.1 | 

10 | 

9.9 | 

10 

1 

1 

2 I 

0.0555 | 

0 I 

0.5 | 

10 | 

9.5 | 

10 

1 

1 

3 I 

0.2815 | 

2 | 

0.8 | 

8 I 

9.2 | 

10 

1 

1 

4 I 

0.6423 | 

5 I 

5.4 | 

5 | 

4.6 | 

10 

1 

1 

5 1 

0.7416 | 

6 I 

6.8 | 

4 I 

3.2 | 

10 

1 










1 

6 I 

0.8087 | 

9 I 

7.8 | 

1 1 

2.2 | 

10 

1 

1 

7 I 

0.8850 | 

7 1 

8.5 | 

3 I 

1-5 | 

10 

1 

1 

8 I 

0.9719 | 

10 | 

9.4 | 

0 I 

0.6 | 

10 

1 

1 

9 I 

0.9884 | 

10 | 

9.8 | 

0 I 

0.2 | 

10 

1 

1 

10 | 

1.0000 | 

10 | 

10.0 | 

0 I 

0.0 | 

10 

1 

+- 







_ 

■+ 


number of observations = 100 

number of groups = 10 

Hosmer-Lemeshow chi2(8) = 6.34 

Prob > chi2 = 0.6091 


Figura 13.30 Teste de Hosmer-Lemeshow para verifica^ao da qualidade do ajuste do modelo final. 













656 Manual de Analise de Dados: Estatistica e Modelagem Multivariada com Excel®, SPSS® e Stata' 


calculados para o modelo final nas se^oes 13.2.2 e 13.2.3. Assim, para este modelo, temos que LL^ — -30,80079 
e, portanto: 

9 -2. (-67,68585) -[(-2. (-30,80079))] 

pseudo R 2 = ---——---— = 0,5449 

-2. (-67,68585) 


Xl g . u = -2. [—67,68585 -(-30,80079)] = 73,77 com valor - P (ou Prob.xh) = 0,000. 


Como a estima^ao do modelo final foi elaborada por meio do procedimento Stepwise com mvel de signifi¬ 
cance de 5%, obviamente todos os valores das estatisticas z de Wald sao menores do que -1,96 ou maiores do 
que 1,96 e, portanto, todos os seus valores-P sao menores do que 0,05. 

Desta forma, como base nos outputs da Figura 13.28, podemos escrever a expressao final de probabilidade es- 
timada de que um estudante i chegue atrasado a escola da seguinte forma: 


Pi =. 


1 


l + e~ 


-30,933+0,204.^+2, 92Q.sem i -3,T76.per i +2,459._IperfU_3 i ) 


e, dessa maneira, podemos retornar a primeira pergunta feita ao final da se^ao 13.2.2: 

Qual e a probabilidade media estimada de se chegar atrasado a escola ao se deslocar 17 quilo- 
metros e passar por 10 semaforos, tendo feito o trajeto de manha e sendo considerado agressivo 
ao volante? 

O comando mfx permite que o pesquisador responda esta pergunta diretamente. Assim, devemos digitar o 
seguinte comando: 

mfx, at(dist=17 sem=10 per=l _Iperfil_3=l) 

Obviamente, o termo _lperfil_2 = 0 nao precisa ser incluido no comando mfx, ja que a variavel _Iperfil_2 
nao esta presente no modelo final. O output e apresentado na Figura 13.31, por meio do qual podemos chegar a 
resposta de 0,603 (60,3%), que e exatamente igual aquela calculada manualmente na se^ao 13.2.2. 

Ainda por meio da Figura 13.28, podemos escrever as expressoes dos limites inferior (mlnimo) e superior 
(maximo) da probabilidade estimada de que um estudante i chegue atrasado a escola, com 95% de confian^a. 
Assim, teremos: 

= _ 1 _ 

^hmn ^ 51,780+0,006.distj+0,938.serrij—5,436.per(+0,226._Iperfil 

1 

Pim ax ~ ^ ^-(- 10 , 087 + 0,402 .distf + 4,901. sem { - 2 , 116 ., 692 . _ Iperfil _ 3,-) 

Pequenas diferengas na terceira casa decimal em rela^ao aos parametros apresentados na se^ao 13.2.2 devem- 
-se a criterios de arredondamento. 


. mfx, at(dist=17 sem=10 per=l _Iperfil_3=l) 


Marginal effects after logit 

y = Pr(atrasado) (predict) 
.6037341 


variable | 

dy/dx 

Std. Err. 

z 

P>|z| 

[ 95% 

C.I. ] 

X 

dist | 

.0488398 

.02476 

1.97 

0.049 

.00031 

.09737 

17 

sem | 

.6986059 

.2811 

2.49 

0.013 

.147657 

1.24955 

10 

per* | 

-.3814532 

.21615 

-1.76 

0.078 

-.805109 

.042203 

1 

_Iperf^3*| 

.4884655 

.22979 

2.13 

0.034 

.038084 

.938847 

1 

(*) dy/dx is 

for discrete change of 

dummy variable 

from 0 to 

1 



Figura 13.31 Calculo da probabilidade estimada para valores das variaveis explicativas - comandomfx. 
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Enquanto o comando logit faz com que o Stata apresente os coeficientes dos parametros estimados da ex- 
pressao de probabilidade de ocorrencia do evento, o comando logistic faz com que o software apresente as 
chances de ocorrencia do evento de interesse ao se alterar em uma unidade a correspondente variavel explicativa, 
mantidas as demais condi^oes constantes. Desta forma, vamos digitar o seguinte comando: 

logistic atrasado dist sem per _Iperfil_2 _Iperfil_3 

Os outputs sao apresentados na Figura 13.32. 


. logistic atrasado dist sem per _Iperfil_2 _Iperfil_3 

Logistic regression Number of obs 

LR chi2(5) 
Prob > chi2 

Log likelihood = -29.06568 Pseudo R2 


100 

77.24 

0.0000 

0.5706 


atrasado | 

Odds Ratio 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

dist | 

1.2463 

.1367244 

2.01 

0.045 

1.005176 

1.545265 

sem | 

15.9063 

14.6604 

3.00 

0.003 

2.612404 

96.84966 

per | 

.0259042 

.0227474 

-4.16 

0.000 

.0046334 

.1448239 

_Iperfil_2 | 

3.842186 

2.872982 

1.80 

0.072 

.8873505 

16.63648 

_Iperfil_3 | 

18.43911 

21.73612 

2.47 

0.013 

1.829528 

185.8407 


Note: 0 failures and 2 successes completely determined. 


Figura 13.32 Outputs da regressao logistica binaria no Stata - comando logistic 
para obten^ao das odds ratios. 


A unica diferen^a entre os outputs da Figura 13.32 (comando logistic) e aqueles apresentados na Figura 13.27 
(comando logit) e que, agora, o Stata apresenta as odds ratios de cada variavel explicativa, calculadas com base na 
expressao (13.3). No mais, podemos perceber que as estatisticas z de Wald e os seus respectivos valores-P sao exa- 
tamente os mesmos daqueles apresentados na Figura 13.27 e, desta forma, faz sentido elaborarmos, tambem para 
o comando logistic, o procedimento Stepwise. Assim, vamos digitar o seguinte comando: 

stepwise, pr(0.05): logistic atrasado dist sem per _Iperfil__2 

_Iperfil_3 

Os outputs encontram-se na Figura 13.33. 

Analogamente, os outputs desta figura sao os mesmos daqueles apresentados na Figura 13.28, a exce^ao das 
odds ratios. 


. stepwise, pr(0.05): logistic atrasado dist sem per _Iperfil_2 _Iperfil_3 
begin with full model 
p = 0.0718 >= 0.0500 removing _Iperfil__2 


Logistic regression 

Log likelihood = -30.800789 


Number of obs = 100 
LR chi2(4) = 73.77 
Prob > chi2 = 0.0000 
Pseudo R2 = 0.5449 


atrasado | 

Odds Ratio 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

dist | 

1.226478 

.1240708 

2.02 

0.044 

1.005893 

1.495435 

sem | 

18.5434 

18.7436 

2.89 

0.004 

2.557396 

134.4562 

per | 

.0229073 

.0193951 

-4.46 

0.000 

.0043579 

.1204115 

Iperfil__3 | 

11.6939 

13.32463 

2.16 

0.031 

1.253305 

109.1094 


Note: 0 failures and 2 successes completely determined. 


Figura 13.33 Outputs da regressao logistica binaria com procedimento Stepwise no Stata - 
comando logistic para obtengao das odds ratios. 
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As estimates apresentadas nas Figuras 13.32 e 13.33 tambem poderiam ter sido obtidas por meio dos se- 
guintes comandos, respectivamente: 

glm atrasado dist sem per __Iperfil_2 __Iperfil_3, family (bernoulli) 
eform 

stepwise, pr(0.05) : glm atrasado dist sem per _Iperfil_2 _Iperfil_3, 
family(bernoulli) eform 

em que o termo eform do comando glm equivale ao comando logistic. 

Sendo assim, podemos retornar as duas ultimas perguntas elaboradas ao final da se^ao 13.2.2: 

Em media, em quanto se altera a chance de se chegar atrasado a escola ao se adotar um percur- 
so 1 quilometro mais longo, mantidas as demais condi£oes constantes? 

Um aluno considerado agressivo apresenta, em media, uma chance maior de chegar atrasado do 
que outro considerado calmo? Se sim, em quanto e incrementada esta chance, mantidas as demais 
condi^oes constantes? 

As respostas agora podem ser dadas de maneira direta, ou seja, enquanto a chance de se chegar atrasado a escola ao se 
adotar um trajeto 1 quilometro mais longo e, em media e mantidas as demais concludes constantes, multiplicada por um 
fator de 1,226 (chance 22,6% maior), a chance de se chegar atrasado a escola quando se e agressivo ao volante em rela^ao 
a ser calmo e, em media e tambem mantidas as demais concludes constantes, multiplicada por um fator de 11,693 (chan¬ 
ce 1.069,3% maior).Estes valores sao exatamente os mesmos daqueles calculados manualmente ao final da se^ao 13.2.2. 

Estimado o modelo probabilistico, podemos, por meio do comando predict phat, gerar uma nova varia- 
vel (phat) no banco de dados. Esta nova variavel corresponde aos valores esperados (previstos) de probabilidade de 
ocorrencia do evento para cada observa^ao, calculados com base nos parametros estimados na ultima modelagem 
efetuada. 

Apenas para fins didaticos, podemos elaborar tres graficos distintos que relacionam a variavel dependente e a 
variavel sem. Estes graficos sao apresentados nas Figuras 13.34,13.35 e 13.36, e os comandos para a obten^ao de 
cada um deles sao, respectivamente, os seguintes: 

graph twoway scatter atrasado sem || Ifit phat sem 
graph twoway scatter atrasado sem || mspline phat sem 
graph twoway scatter phat sem || mspline phat sem 






Modelos de Regressao Logistica Binaria e Multinomial 659 



Figura 13.35 Ajuste logistico deterministico entre a variavel dependente e a variavel sem. 



Figura 13.36 Ajuste logistico probabilistic© entre a variavel dependente e a variavel sem . 

Enquanto o grafico da Figura 13.34 apresenta apenas o ajuste linear entre a variavel dependente e a variavel 
sem , o que nao traz muitos beneficios a analise, o grafico da Figura 13.35 traz o ajuste logistico com base nas pro- 
babilidades estimadas, porem ainda apresentando a variavel dependente de forma dicotomica, o que faz com que 
este grafico seja chamado de ajuste logistico deterministico. Por fim, o grafico da Figura 13.36, embora similar 
ao anterior, mostra como as probabilidades de ocorrencia do evento de interesse se comportam em fungao de 
altera^oes na variavel sem , sendo, portanto, chamado de ajuste logistico probabilistico. 

Com base no modelo final estimado, podemos agora elaborar a analise de sensibilidade do modelo proposto, 
de acordo com o apresentado na se^ao 13.2.4. Para tanto, devemos digitar o seguinte comando: 


estat class 
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Figura 13.37 Analise de sensibilidade {cutoff = 0,5). 


Iniciaremos a analise de sensibilidade com um cutoff de 0,5. Ressalta-se que o comando estat class ja apre- 
senta, como padrao, um cutoff de 0,5. O output gerado encontra-se na Figura 13.37, que corresponde exatamente 
aTabela 13.11. 

Logo, conforme discutimos na se^ao 13.2.4, podemos verificar que 86 observa^oes foram classificadas corre- 
tamente, para um cutoff de 0,5, sendo que 56 delas foram evento e de fato foram classificadas como tal, e outras 30 
nao foram evento e nao foram classificadas como evento, para este cutoff. Entretanto, 14 observances foram clas¬ 
sificadas incorretamente, sendo que 3 foram evento mas nao foram classificadas como tal e 11 nao foram evento 
mas foram classificadas como tendo sido. 

O Stata tambem oferece em seus outputs a eficiencia global do modelo, denominada Correctly Classified 
(percentual total de acerto da classifica^ao), a sensitividade, ou Sensitivity (percentual de acerto considerando- 
-se apenas as observa^oes que de fato foram evento) e a especificidade, ou Specificity (percentual de acerto 
considerando-se apenas as observa^oes que nao foram evento), para um cutoff de 0,5. Assim sendo, temos, 
respectivamente: 

EGM = ^^- = 0,8600 

100 

Sensitividade = — = 0,9492 
59 


Especificidade = — = 0,7317 

A tabela da Figura 13.37 tambem pode ser obtida por meio da digita^ao da seguinte sequencia de comandos, 
cujos outputs encontram-se na Figura 13.38: 

gen classatrasado = 1 if phat>=0.5 
replace classatrasado=0 if classatrasado==. 
tab classatrasado atrasado 
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Figura 13.38 Obtengao por sequencia de comandos da tabela de classificagao {cutoff = 0,5). 



Figura 13.39 Analise de sensibilidade {cutoff = 0,3). 


As Figuras 13.39 e 13.40 apresentam as analises de sensibilidade do modelo para valores de cutoff iguais a 0,3 
e 0,7, e suas tabelas de classificagao correspondem, respectivamente, asTabelas 13.12 e 13.13 apresentadas na se- 
gao 13.2.4. Os comandos para obtengao das Figuras 13.39 e 13.40 sao, respectivamente: 

estat class, cutoff(0.3) 
estat class, cutoff(0.7) 

Como os valores de cutoff variam entre 0 e 1, torna-se operacionalmente impossivel a elaboragao de analises 
de sensibilidade para cada cutoff. Sendo assim, faz sentido, neste momento, que sejam elaboradas a curva de sensi¬ 
bilidade e a curva ROC (Receiver Operating Characteristic) para todas as possibilidades de cutoff. Os comandos para 
a elaboragao de cada uma delas sao, respectivamente: 


lsens 

lroc 
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Figura 13.40 Analise de sensibilidade (cutoff =0,7). 


Enquanto as Figuras 13.14 e 13.15 (se^ao 13.2.4) apresentavam apenas parte das curvas completas de sensibili¬ 
dade e ROC (naquela oportunidade,foram plotadas considerando-se apenas tres valores de cutoff ), as Figuras 13.41 
e 13.42 apresentam, respectivamente, estas curvas completas. 

A analise da curva de sensibilidade (Figura 13.41) permite que cheguemos a um valor aproximado de cutoff que 
iguala a sensitividade a especificidade, e esse cutoff, para o nosso exemplo, e aproximadamente igual a 0,67.0 maior 
problema que podemos perceber na curva de sensibilidade refere-se ao comportamento da curva de especificidade. 
Enquanto a curva de sensitividade apresentapercentuais de acerto de classifica^ao para a maioria dos valores de cutoff 
(ate aproximadamente 0,65),o mesmo nao pode ser dito em rela^ao ao comportamento da curva de especificidade, 



Figura 13.41 Curva de sensibilidade. 
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1 - Specificity 


Area under ROC curve = 0.9378 


Figura 13.42 Curva ROC. 


que apresenta percentuais altos de acerto apenas para um intervalo bem pequeno de cutoffs (apenas para cutoffs 
maiores do que aproximadamente 0,75). Em outras palavras, enquanto o percentual de acerto para aqueles que 
serao evento e alto, quase que independentemente do cutoff que se use, o percentual de acerto daqueles que nao serao 
evento so sera alto para poucos valores de cutoff, o que podera prejudicar a eficiencia global de acerto do modelo 
para efeitos de previsao. Este modelo, portanto, e bom para prever se um aluno chegara de fato atrasado a escola, 
porem nao apresenta o mesmo desempenho para se prever o nao evento, ou seja, caso haja a indica^ao de que um 
aluno nao chegara atrasado a escola. Quando houver esta ultima indicagao, portanto, o modelo cometera mais 
erros de previsao para a maioria dos valores de cutoffl 

Assim sendo, embora tenhamos um modelo com alta eficiencia global e com variaveis explicativas estatisti- 
camente significantes para compor as expressoes das probabilidades de ocorrencia do evento e do nao evento, 
poderfamos sugerir a inclusao de novas variaveis explicativas a fim de que, eventualmente, melhore o carater de 
previsibilidade daqueles que nao chegarao atrasados a escola e, desta forma, a eficiencia global do modelo, com o 
consequentemente aumento da area abaixo da curva ROC. Embora isso seja verdade, e importante frisarmos que, 
para o nosso exemplo, a area abaixo da curva ROC e de 0,9378 (Figura 13.42), o que e considerado muito bom para 
efeitos de previsao! 

13.4.2. Regressao logistica multinomial no software Stata 

O exemplo da se^ao 13.3 possui, como fenomeno a ser estudado, uma variavel qualitativa com tres categorias 
(nao chegou atrasado, chegou atrasado a primeira aula ou chegou atrasado a segunda aula). O banco de dados encontra- 
-se no arquivo AtrasadoMultinomial.dta e e exatamente igual ao apresentado parcialmente naTabela 13.14. 
Seguindo o mesmo procedimento adotado na se^ao 13.4.1, iremos inicialmente digitar o comando desc, a fim 
de analisarmos as caracteristicas do banco de dados, como o numero de observances, o numero de variaveis e a 
descri^ao de cada uma delas. A Figura 13.43 apresenta estas caracteristicas. 

Neste exemplo, apenas duas variaveis explicativas foram consideradas (dist e sem), sendo ambas quantitativas. A 
Figura 13.44 apresenta a distribuinao de frequences das categorias da variavel dependente atrasado, que foi obtida 
por meio da digita^ao do seguinte comando: 


tab atrasado 
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. desc 





obs: 

100 




vars: 

4 




size: 

2,700 

(99.9% of 

memory free) 



storage 

display 

value 


variable name 

type 

format 

label 

variable label 

estudante 

strll 

%lls 



atrasado 

float 

%31.Og 

atrasado 

chegou atrasado a escola? 

dist 

float 

%9.0g 


distancia percorrida ate a escola (km) 

sem 

float 

%9. Og 


quantidade de semaforos 

| Sorted by: | 


Figura 13.43 Descrigao do banco de dados AtrasadoMultinomiaLdta. 


. tab atrasado 

chegou atrasado a escola? | 

Freq. 

Percent 

Cum. 

nao chegou atrasado | 

49 

49.00 

o 

o 

chegou atrasado a primeira aula | 

16 

16.00 

65.00 

chegou atrasado a segunda aula | 

—_ _i_ 

35 

35.00 

100.00 

Total | 

100 

100.00 



Figura 13.44 Distribuigao de frequences da variavel atrasado. 


Feitas estas consideragoes iniciais, partiremos para a modelagem propriamente dita da regressao logistica mul¬ 
tinomial. Para tanto, vamos digitar o seguinte comando: 

mlogit atrasado dist sem 

Os outputs encontram-se na Figura 13.45. 


. mlogit atrasado dist sem 


Iteration 

Iteration 

Iteration 

Iteration 

Iteration 

Iteration 

Iteration 

Iteration 


Iteration 8 


log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 


-101.01922 

-42.107305 

-37.136795 

-28.8332 

-25.379085 

-24.540694 

-24.511848 

-24.511801 

-24.511801 


Multinomial logistic regression 


Number of obs 
LR chi2(4) 


100 

153.01 


Log likelihood 

= -24.511801 



Prob > 
Pseudo 

chi 2 

R2 

0.0000 

0.7574 

atrasado 

1 

Coef. 

Std. Err. 

z 

P> 1 z | 

[95% Conf. 

Interval] 

nao_chegou~o 

■+■ 

1 

(base outcome) 





chegou atr~a 

1 







dist 

1 

.558829 

.2433023 

2.30 

0.022 

.0819653 

1.035693 

sem 

1 

1.669908 

.5768518 

2.89 

0.004 

.5392991 

2.800516 

__cons 

1 

-33.13523 

12.18349 

-2.72 

0.007 

-57.01444 

-9.256017 

chegou_atr~a 

- + - 

1 







dist 

1 

1.078369 

.3023893 

3.57 

0.000 

.4856968 

1.671041 

sem 

1 

2.894861 

.6859786 

4.22 

0.000 

1.550368 

4.239354 

_cons 

1 

-62.29224 

14.67499 

-4.24 

0.000 

-91.05468 

-33.52979 


Figura 13.45 Outputs da regressao logistica multinomial no Stata. 
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Como podemos perceber por meio da analise desta figura, a categoria adotada como referenda pelo Stata e 
a com maior frequencia, ou seja, a categoria nao chegou atrasado, conforme podemos verificar pela Figura 13.44. 
Coincidentemente, esta e a categoria que realmente desejamos que seja a referenda e, portanto, nada precisara ser 
feito em rela^ao a uma eventual mudan^a da categoria de referenda antes da estima^ao do modelo. Entretanto, 
caso um pesquisador tenha o interesse em alterar a categoria de referenda para, por exemplo, a categoria chegou 
atrasado a segunda aula , devera digitar o seguinte comando: 

mlogit atrasado dist sem, b(2) 


Seguiremos com a analise dos outputs obtidos na Figura 13.45. 

Inicialmente, podemos verificar que os valores maximos do logaritmo da fun^ao de verossimilhan^a para o 
modelo completo e para o modelo nulo sao, respectivamente, -24,51180 e -101,01922, exatamente aqueles cal- 
culados e apresentados nas Figuras 13.19 e 13.21, respectivamente. Assim, fazendo uso da expressao (13.41), te- 
mos que: 

X 2 4s± = -2.[-101,01922- (-24,51180)] = 153,01comwjfor - P(ou Prob.xl,) = 0,000. 


Logo, com base no teste X 2 > podemos rejeitar a hipotese nula de que todos os parametros (3 ]m (j = 1,2; m = 1,2) 
sejam estatisticamente iguais a zero ao rrivel de significance de 5%, ou seja, pelo menos uma variavel X e estatistica- 
mente significante para explicar a probabilidade de ocorrencia de pelo menos um dos eventos em estudo. 

O Stata tambem apresenta o pseudo R 2 de McFadden, cujo calculo e feito com base na expressao (13.40), 
exatamente como fizemos na se^ao 13.3.2. 

J -2.(-101,01922)-[(-2.(-24,51180))] 

pseudo R =-= 0,7574 

-2. (-101,01922) 

Como podemos verificar, todas as estatisticas z de Wald apresentam valores menores do que = -1,96 ou 
maiores do que z c = 1,96, conforme j a haviamos discutido na se^ao 13.3.2. Sendo assim, ainda com base nos 
outputs da Figura 13.45, podemos escrever as expressoes finais das probabilidades medias estimadas de ocorrencia 
de cada uma das tres categorias da variavel dependente, assim como as respectivas expressoes dos limites inferior 
(minimo) e superior (maximo) destas probabilidades estimadas, com 95% de confian^a: 

Probabilidade de um estudante i nao chegar atrasado (categoria 0): 

1 

P *o _ , , (-33,135+0,559.^+1, 670.semA , (-62,292+1,078.dist-+2,895. 

l + c v l) +e K ’ 


Intervalo de Confian 9 a (95%) da probabilidade estimada de um estudante i nao chegar atrasado 
(categoria 0): 


iV, = 


. . (-57,014+0,082.fc+0,539.5em,) . (-91,055+0,486.fc+l,550.5gm t ) 

l + c v l) +e K ’ 


1 

Pi Omax ~ A , (-9,256+1,035.^+2,800.5^:) , (-33,529+1,671. dist+4,239.sernA 

l + c v 1 l) 

Probabilidade de um estudante i chegar atrasado a primeira aula (categoria 1): 

(-33,135+0,559.^+1,670.5em:) 

_ e K l) 

P { \ ~ 7”. (-33,135+0,559. dist { +1,670 .sent :) . (-62,292+1,078. dist, +2,895. sem t ) 

l + e K ’+e K ] 

Intervalo de Confian 9 a (95%) da probabilidade estimada de um estudante i chegar atrasado a 
primeira aula (categoria 1): 

(-57,014+0,082. disL +0,539. sem { ) 

e 

Phrmn ~ 77 (-57,014+0,082.^15^+0, 539.sent:) . (-91,055+0 ,486.dist { +1,550.56m,-) 

l + e ; + c v ’ 
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(—9,256+1,035. distj +2,800. sent ;) 




1+e 


(-9,256+1,035.^+2,800.5^) ^(-33,529+1,671.^,+4,239.^) 


Probabilidade de um estudante i chegar atrasado a segunda aula (categoria 2): 

(—62,292+1,078. rfwfc +2,895. sent:) 

e 

Pi2 ~ ^ + ~(—33,135+0,559. disti+1,610.semi ) _|_ ^(—62,292+1,078.^+2,895. sem,) 

Intervalo de Confian^a (95%) da probabilidade estimada de um estudante i chegar atrasado a 
segunda aula (categoria 2): 


(-91,055+0,486. +1,550.5em,) 


P,, = 


(-57,014+0,082. dist +0,539. sent :) , (-91,055+0,486 .dist +1,550. sem ,) 
V i} +e K J 


1 + e 


(-33,529+1,671 .dish +4,239. sem ,) 

_ 6 

Pi2 m w “7“ (-9,256+1,035.^15^+2,800.iem.) , (-33,529+1, 671.dist+4,239. sem,) 

max 1 + 1 ‘ J +e [ ‘ J 

Estimadas as expressoes das probabilidades, vamos criar, no banco de dados, tres variaveis correspondentes as 
expressoes das probabilidades medias de ocorrencia de cada um dos eventos, por meio da digita^ao dos seguintes 
comandos: 

Cria^ao da variavel referente a probabilidade de um estudante i nao chegar atrasado (categoria 0): 

gen piO = (1) / (1 + (exp(-33.13523 + .558829*dist + 1.669908*sem) ) 

+ (exp(-62.29224 + 1.078369*dist + 2.894861*sem) )) 

Cria^ao da variavel referente a probabilidade de um estudante i chegar atrasado a primeira aula 
(categoria 1): 

gen pil = (exp(-33.13523 + .558829*dist + 1.669908*sem) ) / (1 
+ (exp(-33.13523 + .558829*dist + 1.669908*sem) ) + (exp(-62.29224 
+ 1.078369*dist + 2.894861*sem) )) 

Cria£ao da variavel referente a probabilidade de um estudante i chegar atrasado a segunda aula 
(categoria 2): 

gen pi2 = (exp(-62.29224 + 1.078369*dist + 2.894861*sem) ) / (1 
+ (exp(-33.13523 + .558829*dist + 1.669908*sem) ) + (exp(-62.29224 
+ 1.078369*dist + 2.894861*sem))) 

Podemos verificar que estas novas variaveis (pi0,pil e pi2) sao identicas aquelas obtidas quando da elabora^ao 
da Figura 13.19 obtida pelo Solver do Excel (naquele caso, as variaveis presentes nas colunas J, K e L, respectiva- 
mente). Geradas estas novas variaveis, teremos condi^oes de elaborar dois interessantes graficos, a partir dos quais 
algumas conclusoes podem ser obtidas. Enquanto o primeiro grafico (Figura 13.46) mostra o comportamento 
das probabilidades de ocorrencia de cada um dos eventos em fun^ao da distancia percorrida ate a escola, o se- 
gundo grafico (Figura 13.47) mostra o comportamento destas probabilidades em fun^ao da quantidade de sema- 
foros pelos quais cada um e obrigado a passar. Os comandos para elabora^ao destes graficos sao, respectivamente: 

graph twoway mspline piO dist || mspline pil dist || mspline pi2 
dist ||, legend (label (1 "nao chegou atrasado 11 ) label (2 "chegou atrasado 
a primeira aula")label(3 "chegou atrasado a segunda aula")) 

graph twoway mspline piO sem | | mspline pil sem | | mspline pi2 sem | | , 
legend(label(1 "nao chegou atrasado”) label(2 "chegou atrasado a 
primeira aula")label(3 "chegou atrasado a segunda aula")) 
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Por meio do grafico da Figura 13.46, podemos verificar que ha diferen^as nas probabilidades de se chegar 
atrasado a primeira ou a segunda aula em rela^ao a nao se chegar atrasado, ao se variar a distancia percorrida 
ate a escola. Podemos perceber que, ate aproximadamente 20 quilometro de distancia, as diferen^as nas proba¬ 
bilidades de se chegar atrasado a primeira ou a segunda aula sao pequenas, porem as maiores diferen^as ocor- 
rem para a probabilidade de nao se chegar atrasado, que e bem maior. Por outro lado, uma distancia maior que 
aproximadamente 20 quilometros de percurso passa a fazer com que a probabilidade de se chegar atrasado a 
segunda aula aumente consideravelmente em rela^ao a probabilidade de se chegar atrasado a primeira aula. 
Alem disso, a partir desta distancia, a probabilidade de nao se chegar atrasado a escola cai consideravelmente. 
Isso explica o fato de a variavel dist ter sido estatisticamente significante, ao nivel de significancia de 5%, para os 
dois logitos do modelo, tendo sido considerada referenda a categoria correspondente a nao se chegar atrasado. 
Podemos tambem notar, independentemente da distancia percorrida, que a probabilidade de se chegar atrasa¬ 
do a primeira aula e sempre baixa, e quase nao apresenta altera^oes consideraveis com a mudan^a da distan¬ 
cia. Desta forma, se, por exemplo, elaborassemos uma regressao logistica com apenas duas categorias (binaria), 
sendo o evento de interesse representado pela categoria correspondente a se chegar atrasado a primeira aula 
(dummy =1), verificariamos que a variavel dist nao seria estatisticamente significante, ao nivel de significancia 
de 5%, para explicar a probabilidade de se chegar atrasado a primeira aula, como ja comprovado por meio da 
analise do grafico da Figura 13.46. 

Ja a analise da Figura 13.47, que mostra as diferen^as nas probabilidades de se chegar atrasado a primeira ou 
a segunda aula em rela^ao a nao se chegar atrasado, ao se variar a quantidade de semaforos que sao ultrapassados 
no trajeto ate a escola, podemos verificar que, ate uma quantidade de aproximadamente 12 semaforos, a probabi¬ 
lidade de se chegar atrasado a escola e praticamente nula. Porem, a partir desta quantidade, a probabilidade de se 
chegar atrasado passa a subir consideravelmente, com destaque para a probabilidade de se chegar atrasado a pri¬ 
meira aula. Entretanto, para quantidades superiores a aproximadamente 17 semaforos, a probabilidade de se che¬ 
gar atrasado a segunda aula passa a ser a maior entre as tres possibilidades de ocorrencia de evento, ficando quase 
que absoluta com quantidades superiores a 18 semaforos. O comportamento destas probabilidades explica o fato 
de a variavel sem ter sido estatisticamente significante, ao nivel de significancia de 5%, para os dois logitos do mo¬ 
delo, tendo sido considerada referenda a categoria correspondente a nao se chegar atrasado, ou seja, para expli¬ 
car o comportamento das probabilidades de ocorrencia de cada uma das tres categorias da variavel dependente. 

Por fim, mas nao menos importante, vamos elaborar, assim como fizemos na se^ao 13.4.1, o modelo solici- 
tando que sejam fornecidas as chances de ocorrencia de cada um dos eventos de interesse ao se alterar em uma 
unidade a correspondente variavel explicativa, mantidas as demais condi^oes constantes. Em modelos de regres¬ 
sao logistica multinomial, conforme discutimos na se^ao 13.3.2, a chance ( odds ratio) tambem e chamada de razao 
de risco relativo ( relative risk ratio). Desta forma, devemos digitar o seguinte comando: 

mlogit atrasado dist sem, rrr 

em que o termo rrr refere-se exatamente a expressao relative risk ratio. Os outputs estao apresentados na Figura 13.48. 

Os outputs da Figura 13.48 sao os mesmos daqueles apresentados na Figura 13.45, a exce^ao das relative risk 
ratios. Desta forma, podemos retornar as duas ultimas perguntas elaboradas ao final da se^ao 13.3.2: 

Em media, em quanto se altera a chance de se chegar atrasado a primeira aula, em rela^ao a 
nao chegar atrasado a escola, ao se adotar um percurso 1 quilometro mais longo, mantidas as de¬ 
mais cond^oes constantes? 

Em media, em quanto se altera a chance de se chegar atrasado a segunda aula, em rela 9 ao a nao 
chegar atrasado, ao se passar por 1 semaforo a mais no percurso ate a escola, mantidas as demais con¬ 
cludes constantes? 

As respostas agora podem ser dadas de maneira direta, ou seja, enquanto a chance de se chegar atrasado a 
primeira aula em rela^ao a nao chegar atrasado a escola, ao se adotar um trajeto 1 quilometro mais longo, e, em 
media e mantidas as demais condi^oes constantes, multiplicada por um fator de 1,749 (74,9% maior), a chan¬ 
ce de se chegar atrasado a segunda aula em rela^ao a nao chegar atrasado, ao se passar por 1 semaforo a mais no 
percurso ate a escola, e, em media, multiplicada por um fator de 18,081 (1.708,1% maior), tambem mantidas as 
demais condi^oes constantes. Estes valores sao exatamente os mesmos daqueles calculados manualmente ao final 
da se<jao 13.3.2. 



Modelos de Regressao Logistica Binaria e Multinomial 669 


I . mlogit atrasado dist sem, rrr 





Iteration 

0 

log 

likelihood 

= 

-101.01922 




Iteration 

1 

log 

likelihood 

= 

-42.107305 




Iteration 

2 

log 

likelihood 

= 

-37.136795 




Iteration 

3 

log 

likelihood 

= 

-28.8332 




Iteration 

4 

log 

likelihood 

= 

-25.379085 




Iteration 

5 

log 

likelihood 

= 

-24.540694 




Iteration 

6 

log 

likelihood 

= 

-24.511848 




Iteration 

7 

log 

likelihood 

= 

-24.511801 




Iteration 

8 

log 

likelihood 

= 

-24.511801 




1 Multinomial 

logistic regression 


Number of obs 

= 

100 







LR chi2 (4) 

= 

153.01 







Prob > chi2 

= 

0.0000 

Log likelihood = -24.511801 



Pseudo R2 

= 

0.7574 


atrasado | RRR Std. Err. z P>|z| [95% Conf. Interval] 

- + - 

nao_chegou~o | (base outcome) 

- + - 

chegou_atr~a | 

dist | 1.748624 .4254441 2.30 0.022 1.085418 2.817057 

sem | 5.311678 3.064051 2.89 0.004 1.714804 16.45314 

- + - 

chegou_atr~a | 

dist | 2.93988 .8889883 3.57 0.000 1.625307 5.3177 

sem | 18.08099 12.40317 4.22 0.000 4.713203 69.36305 


Figura 13.48 Outputs da regressao logistica multinomial no Stata - relative risk ratios. 


A capacidade do Stata para a estima^ao de modelos e a elabora^ao de testes estatisticos e enorme, porem 
acreditamos que o que foi exposto aqui e considerado obrigatorio para pesquisadores que tenham a inten^ao de 
aplicar, de forma correta, as tecnicas de regressao logistica binaria e multinomial. 

Partiremos agora para a resolu^ao dos mesmos exemplos por meio do SPSS. 

13.5. ESTIMA^AO DE MODELOS DE REGRESSAO LOGISTICA BINARIA E MULTINOMIAL 
NO SOFTWARE SPSS 

Apresentaremos agora o passo a passo para a elabora^ao dos nossos exemplos por meio do IBM SPSS Statistics 
Software®. A reprodu^ao de suas imagens nesta segao tern autorizagao da International Business Machines 
Corporation®. 

Nosso objetivo nao e discutir novamente os conceitos inerentes as tecnicas, nem tampouco repetir aquilo que 
ja foi explorado nas se^oes anteriores. O maior objetivo desta se^ao e o de propiciar ao pesquisador uma oportu- 
nidade de elaborar as tecnicas de regressao logistica binaria e multinomial no SPSS, dada a facilidade de manuseio 
e a didatica com que o software realiza as suas operates e se coloca perante o usuario. A cada apresenta^ao de 
um output, faremos men^ao ao respectivo resultado obtido quando da elabora^ao das tecnicas por meio do Excel 
e do Stata, a fim de que o pesquisador possa compara-los e, desta forma, decidir qual software utilizar, em fun^ao 
das caracteristicas de cada um e da propria acessibilidade para uso. 

13.5.1 • Regressao logistica binaria no software SPSS 

Seguindo a mesma logica proposta quando da aplicafao dos modelos por meio do software Stata, ja partire¬ 
mos para o banco de dados construido pelo professor a partir dos questionamentos feitos a cada um de seus 100 
estudantes. Os dados encontram-se no arquivo Atrasado.sav e, apos o abrirmos, vamos inicialmente clicar em 
Analyze —> Regression —> Binary Logistic..., A caixa de dialogo da Figura 13.49 sera aberta. 

Devemos selecionar a variavel atrasado e inclui-la na caixa Dependent. As demais variaveis devem ser simul- 
taneamente selecionadas e inseridas na caixa Covariates. Manteremos, neste primeiro momento, a op^ao pelo 
Method: Enter. O procedimento Enter, ao contrario do procedimento Stepwise (no SPSS, a regressao logistica 
binaria utiliza procedimento analogo conhecido por Forward Wald), inclui todas as variaveis na estima^ao, mesmo 
aquelas cujos parametros sejam estatisticamente iguais a zero, e corresponde exatamente ao procedimento pa- 
drao elaborado pelo Excel (modelo completo apresentado na Figura 13.4) e tambem pelo Stata quando se aplica 
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Figura 13.49 Caixa de dialogo para elaborate* da regressao logistica binaria no SPSS. 


diretamente o comando logit. A Figura 13.50 apresenta a caixa de dialogo do SPSS, com a defini^ao da variavel 
dependente e das variaveis explicativas a serem inseridas no modelo. 

Caso o banco de dados nao tivesse apresentado as variaveis dummy correspondentes as categorias da variavel 
perfil , poderiamos selecionar o botao Categorical... e incluir a variavel original (perfil ) nesta op$ao, inclusive 



Figura 13.50 Caixa de dialogo para elabora^ao da regressao logistica binaria no SPSS com inclusao 
da variavel dependente e das variaveis explicativas e sele<;ao do procedimento Enter. 
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com a defini^ao da categoria de referenda. Como ja temos as duas dummies (perjil2 e perfil3), nao ha a necessidade 
de que este procedimento seja feito. 

No botao Options..., selecionaremos apenas as op^oes Iteration history e Cl for exp(B), que correspon- 
dem, respectivamente, ao historico do procedimento de iteragao para a maximiza^ao da somatoria do logaritmo da 
fungao de verossimilhanga e aos intervalos de confian^a das odds ratios de cada parametro. A caixa de dialogo que e 
aberta, ao clicarmos nesta op^ao, esta apresentada na Figura 13.51,ja com a sele^ao das mencionadas op<;6es. 



Figura 13.51 Op^oes para elabora^ao da regressao logfstica binaria no SPSS. 


Podemos notar, por meio da Figura 13.51, que o cutoff padrao utilizado pelo SPSS e igual a 0,5, porem e 
nesta caixa de dialogo que o pesquisador pode altera-lo para o valor que desejar, a fim de elaborar classifica^oes 
das observa^oes existentes na base de dados e previsoes para outras observa^oes. Na caixa de dialogo do bo¬ 
tao Options..., podemos ainda impor que o parametro a seja igual a zero (ao desabilitarmos a op$ao Include 
constant in equation) e alterar o nivel de significancia a partir do qual o parametro de determinada variavel 
explicativa pode ser considerado estatisticamente igual a zero (teste z de Wald) e, portanto, esta variavel devera ser 
excluida do modelo final quando da elabora^ao do procedimento Stepwise. Manteremos o padrao de 5% para os 
mveis de significancia e deixaremos a constante no modelo (op^ao Include constant in equation selecionada). 

Vamos agora selecionar Continue e OK. Os outputs gerados estao apresentados na Figura 13.52. 

Esta figura traz apenas os resultados obtidos mais importantes para a analise da regressao logistica binaria. Nao 
iremos novamente analisar todos os outputs gerados, uma vez que podemos verificar que sao exatamente iguais 
aqueles obtidos quando da estimagao da regressao logistica binaria no Excel e no Stata.Vale a pena comentar que, 
enquanto o Stata apresenta o calculo do valor maximo obtido da somatoria do logaritmo da fun^ao de verossimi- 
lhan^a, o SPSS apresenta o dobro deste valor, e com sinal invertido. Assim, enquanto obtivemos LL de -67,68585 
para o modelo nulo (conforme pode ser verificado pelas Figuras 13.7 e 13.27) e de -29,06568 para o modelo 
completo (Figuras 13.4 e 13.27), o SPSS apresenta um valor de -2 LL igual a 135,372 para o modelo nulo ( initial ) 
e igual a -2LL igual a 58,131 para o modelo completo. 

A outra diferen^a entre os outputs gerados pelo Stata e pelo SPSS diz respeito ao pseudo R 2 . Enquanto o Stata 
apresenta o ja calculado pseudo R 2 de McFadden, o SPSS apresenta o pseudo R 2 de Cox & Snell e o pseudo 
R 2 de Nagelkerke, cujos calculos podem ser obtidos, respectivamente, por meio das expressoes (13.45) e (13.46). 
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Block 1: Method = Enter 
Iteration History 3 b ,c ,d 


Iteration 

-2 Log 
likelihood 

Coefficients j 

Constant 

dist 

sem 

per 

perfil2 

perfil3 

Step 1 1 

75,870 

-3,561 

,059 

,339 

-2,094 

,764 

1,295 

2 

65,970 

-8,640 

,100 

,799 

-2,696 

1,116 

2,000 

3 

60,185 

-17,902 

,148 

1,647 

-3,028 

1,249 

2,397 

4 

58,287 

-26,614 

,204 

2,432 

-3,439 

1,326 

2,748 

5 

58,133 

-29,795 

,219 

2,727 

-3,630 

1,347 

2,895 

6 

58,131 

-30,193 

,220 

2,766 

-3,653 

1,346 

2,914 

7 

58,131 

-30,200 

,220 

2,767 

-3,653 

1,346 

2,914 

8 

58,131 

-30,200 

•,220 

2,767 

-3,653 

1,346 

2,914 


a. Method: Enter 

b. Constant is included in the model. 

c. Initial -2 Log Likelihood: 135,372 

d. Estimation terminated at iteration number 8 because parameter estimates changed by less than , 
001 . 


Omnibus Tests of Model Coefficients 



Chi-square 

df 

Sig. 

Step 1 Step 

77,240 

5 

,000 

Block 

77,240 

5 

,000 

Model 

77,240 

5 

,000 


Model Summary 


Step 

-2 Log 
likelihood 

Cox & Snell R 
Square 

Nagelkerke R 
Square 

1 

58,131 3 

,538 

,725 


a. Estimation terminated at iteration number 8 
because parameter estimates changed by less than 
, 001 . 


Classification Table 3 




Predicted 



chegou atrasado a escola? 




Nao 


Percentage 

Observed 


Sim 

Correct 

Step 1 chegou atrasado 3 
escola? 

Nao 

31 

10 

75,6 

Sim 

4 

55 

93,2 

Overall Percentage 




86,0 


a. The cutvalue is ,500 


Variables in the Equation 



B 

S.E. 

Wald 

df 

Sig. 

Exp(B) 

95% C.I.for EXP(B) 

Lower 

Upper 

Stepl* dist 

,220 

,110 

4,028 

1 

,045 

1,246 

1,005 

1,545 

sem 

2,767 

,922 

9,011 

1 

,003 

15,906 

2,612 

96,850 

per 

-3,653 

,878 

17,309 

1 

,000 

,026 

,005 

,145 

perfil2 

1,346 

,748 

3,240 

1 

,072 

3,842 

,887 

16,636 

perfil3 

2,914 

1,179 

6,113 

1 

,013 

18,439 

1,830 

185,841 

Constant 

-30,200 

9,981 

9,155 

1 

,002 

,000 




a. Variable(s) entered on step 1: dist, sem, per, perfil2, perfil3. 


Figura 13.52 Outputs da regressao logistica binaria no SPSS - procedimento Enter. 





Modelos de Regressao Logistica Binaria e Multinomial 673 


pseudo R ( 


Cox & Snell 


= 1 - 




e LL 

\ e J 


( LL 0 


1- 


pseudo R 


Nagelkerke 


_ pseudo R ( 


1 — (e LL °) 


_ Cox & Snell 

_ 2 _ 

1 - p 


Portanto, para o nosso exemplo, temos que: 


f ll, Vt 


pseudo R ( 


Cox & Snell 


= 1 - 


LL 

\ e J 


= 1 - 


B00 


= 0,538 




0,538 


^-67,68585 J 


= 0,725 


(13.45) 


(13.46) 


Analogamente ao pseudo R 2 de McFadden, estas duas novas estatisticas apresentam limita^oes para a analise 
do poder preditivo do modelo e, portanto, recomenda-se, conforme ja discutido, que seja elaborada a analise de 
sensibilidade para esta finalidade. 

Os demais resultados sao iguais aos obtidos manualmente pelo Excel (se^ao 13.2) e pelo Stata (se^ao 13.4). 
Entretanto, como o parametro da variavel perftl2 nao se mostrou estatisticamente diferente de zero, ao nivel 
de significance de 5%, partiremos para a estima^ao do modelo final por meio do procedimento Forward Wald 
(Stepwise). Para elaborarmos este procedimento, devemos selecionar a op^ao Method: Forward: Wald na caixa 
de dialogo principal da regressao logistica binaria no SPSS, conforme mostra a Figura 13.53. 


stic Regress 


Sk estudante 

chegou atrasado & es... 


semSfor... 


perfil==2 [perfil2] 
>=3 [perfi!3] 


Dependent: 


chegou atrasado & escola? [atra... 


Block 1 of 1 


Covariates: 


Selection Variable: 


Next ] 



!Cateaorical...j 

1 1 


potions... 


S3 


Paste 




Reset 


Cancel 


\ Help 


Figura 13.53 Caixa de dialogo com selegao do procedimento Forward Wald . 
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No botao Options..., alem das op^oes ja marcadas anteriormente, selecionaremos agora tambem a op- 
£ao Hosmer-Lemeshow goodness-of-fit, conforme mostra a Figura 13.54. Feito isso, devemos clicar em 

Continue. 


Logistic Regression: Options 


(“Statistics and Plots - 


B Oassitication ptots B Correlations of estimates 

M Hosmer-Lemeshow goodness-of-fit 0 Ration history 
B Casewise listing of residuals @ Cl for exp(B): 

® Outliers outside 2 std. dev. 

© All cases 

'Display—------— 


# At each step © A4 last step 


r-Protoabity for Stepwise- 


Entry: hos Removal: bio 


M include congant in model 


Classification cutoff: |o t s 
Maximum Iterations: [20 [ 


Figura 13.54 Sele^ao do teste de Hosmer-Lemeshow para verifica^ao da qualidade do ajuste do modelo final. 


O botao Save..., por fim, permite que sejam geradas, no proprio banco de dados original, as variaveis referentes 
a probabilidade estimada de ocorrencia do evento e a classificagao de cada observa^ao, com base na sua probabilidade 
estimada e no cutoff definido anteriormente. Dessa forma, ao clicarmos nesta opgao, sera aberta uma caixa de dialogo, 
conforme mostra a Figura 13.55. Devemos marcar as opgoes Probabilities e Group membership (em Predicted 
Values). 


Logistic Regression: Save 


-Predicted Values— 
§3 Probabilities 
0 Group membership | 

(-Influence- 

D Cook’s 
(0 Leverage values 
D DfBeta(s) 


rResiduals- 

D Unstandardized 
BLog* 

B Studertized 
B Standardized 

B Defence 


rExport model information to XML 


Include the covariance matrix 


Figura 13.55 Caixa de dialogo para criagao das variaveis referentes a probabilidade 
estimada de ocorrencia do evento e a classifica^ao de cada observa^ao. 




Modelos de Regressao Logistica Binaria e Multinomial 675 


Ao clicarmos em Continue e,na sequencia, ern OK, novos outputs sao gerados, conforme mostra a Figura 13.56. 
Note que, alem dos outputs , sao criadas duas novas variaveis no banco de dados original, chamadas de PRE_1 e 
PGR_1, que correspondem, respectivamente, as probabilidades estimadas de ocorrencia do evento e as respectivas 
classificagoes, com base no cutoff de 0,5. Note que a variavel PRE_1 e exatamente igual aquela apresentada na colu- 
nap. da Figura 13.12 gerada pelo Excel e a variavel phat gerada pelo Stata apos a estimagao do modelo apresentado 
na Figura 13.28. 

O primeiro output gerado (Iteration History) apresenta os valores correspondentes a fungao de verossimi- 
lhanga em cada passo da modelagem elaborada por meio do procedimento Forward Wald, que equivale ao proce- 
dimento Stepwise.Veriiicamos que o valor final de -2LL e igual a 61,602, ou seja, LL = -30,801, que e exatamente 
igual ao valor obtido quando da modelagem no Excel (Figura 13.12) e no Stata (Figura 13.28). O output Model 
Summary tambem apresenta esta estatistica, baseada na qual e possivel calcular a estatistica cujo teste avalia a 


Block 1: Method = Forward Stepwise (Wald) 
Iteration History 3 ■ bcde 


Iteration 

-2 Log 
likelihood 

Coefficients j 

Constant 

per 

sem 

perfil3 

dist 

Step 1 1 

92,166 

1,355 

-2,618 




2 

91,097 

1,623 

-3,097 




3 

91,090 

1,648 

-3,136 




4 

91,090 

1,649 

-3,137 




Step 2 1 

84,812 

-1,771 

-2,379 

,297 



2 

77,467 

-5,995 

-2,848 

,744 



3 

74,614 

-11,204 

-3,041 

1,266 



4 

73,486 

-16,979 

-3,143 

1,839 



5 

73,329 

-20,096 

-3,212 

2,150 



6 

73,327 

-20,519 

-3,223 

2,192 



7 

73,327 

-20,525 

-3,223 

2,193 



8 

73,327 

-20,525 

-3,223 

2,193 



Step 3 1 

81,283 

-1,934 

-2,338 

,299 

,976 


2 

72,501 

-6,132 

-2,920 

,739 

1,722 


3 

68,633 

-12,193 

-3,243 

1,346 

2,166 


4 

66,804 

-19,909 

-3,475 

2,110 

2,453 


5 

66,438 

-25,179 

-3,658 

2,636 

2,626 


6 

66,428 

-26,190 

-3,707 

2,738 

2,668 


7 

66,428 

-26,217 

-3,709 

2,740 

2,670 


8 

66,428 

-26,217 

-3,709 

2,740 

2,670 


Step 4 1 

79,252 

-3,180 

-2,256 

,335 

,992 

,061 

2 

69,542 

-8,421 

-2,829 

,821 

1,607 

,102 

3 

63,854 

-17,425 

-3,165 

1,651 

1,957 

,150 

4 

61,832 

-26,316 

-3,557 

2,471 

2,274 

,195 

5 

61,607 

-30,211 

-3,746 

2,848 

2,430 

,204 

6 

61,602 

-30,913 

-3,775 

2,918 

2,458 

,204 

7 

61,602 

-30,933 

-3,776 

2,920 

2,459 

,204 

8 

61,602 

-30,933 

-3,776 

2,920 

2,459 

,204 


a. Method: Forward Stepwise (Wald) 

b. Constant is included in the model. 

c. Initial -2 Log Likelihood: 135,372 

d. Estimation terminated at iteration number 4 because parameter estimates changed by 
less than ,001. 

e. Estimation terminated at iteration number 8 because parameter estimates changed by 
less than ,001. 


Figura 1 3.56 Outputs da regressao logistica binaria no SPSS - procedimento Forward Wald. 
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Omnibus Tests of Model Coefficients 



Chi-square 

df 

Sig. 

Step 1 Step 

44,281 

1 

,000 

Block 

44,281 

1 

,000 

Model 

44,281 

1 

,000 

Step 2 Step 

17,763 

1 

,000 

Block 

62,045 

2 

,000 

Model 

62,045 

2 

,000 

Step 3 Step 

6,899 

1 

,009 

Block 

68,943 

3 

,000 

Model 

68,943 

3 

,000 

Step 4 Step 

4,827 

1 

,028 

Block 

73,770 

4 

,000 

Model 

73,770 

4 

,000 


Model Summary 


Step 

-2 Log 
likelihood 

Cox & Snell R 
Square 

Nagelkerke R 
Square 

1 

91,090 a 

,358 

,482 

2 

73,327 b 

,462 

,623 

3 

66,428 b 

,498 

,672 

4 

61,602 b 

,522 

,703 


a. Estimation terminated at iteration number 4 
because parameter estimates changed by less than 
, 001 . 

b. Estimation terminated at iteration number 8 
because parameter estimates changed by less than 
, 001 . 


Hosmer and Lemeshow Test 


Step 

Chi-square 

df 

Sig. 

1 

,000 

0 


2 

,542 

4 

,969 

3 

,531 

5 

,991 

4 

6,341 

8 

,609 


Figura 13.56 (cont). 


existencia de pelo menos um parametro estatisticamente significante para explicar a probabilidade de ocorrencia 
do evento em estudo. O output Omnibus Tests of Model Coefficients apresenta esta estatistica (% 2 = 73,77, 
Sig. X 2 = 0,000 < 0,05), ja calculada manualmente na se^ao 13.2.2 e tambem ja apresentada na Figura 13.28, por 
meio da qual podemos rejeitar a hipotese nula de que todos os parametros (3. (j = 1,2,..., 5) sejam estatisticamen¬ 
te iguais a zero, ao nivel de significancia de 5%. Logo, pelo menos uma variavel X e estatisticamente significante 
para explicar a probabilidade de se chegar atrasado a escola e, portanto, temos um modelo de regressao logistica 
binaria estatisticamente significante para fins de previsao. 

Na sequencia, sao apresentados os resultados do teste de Hosmer-Lemeshow (Hosmer and Lemeshow 
Test) e a respectiva tabela de contingencia que mostra, a partir dos grupos formados pelos decis das probabilida- 
des estimadas, as frequences esperadas e observadas de observances por grupo. Por meio da analise do resultado 
do teste (para o passo 4, X 2 ~ 6,341, Sig . X 2 = 0,609 > 0,05), ja apresentado tambem por meio da Figura 13.30 
quando da sua elaboranao no Stata, nao podemos rejeitar a hipotese nula de que as frequences esperadas e obser¬ 
vadas sejam iguais, ao nivel de significancia de 5% e, portanto, o modelo final estimado nao apresenta problemas 
em relanao a qualidade do ajuste proposto. 

A Classification Table apresenta a evolunao, passo a passo, da classificanao das observances. Para o modelo 
final (passo 4), obtivemos um valor de especificidade igual a 73,2%, de sensitividade igual a 94,9% e uma efi- 
ciencia global do modelo igual a 86,0%, para um cutoff de 0,5.Tais valores correspondem aqueles obtidos pela 
Tabela 13.11 e tambem ja apresentados na Figura 13.37. A tabela de classificanao cruzada (ou crosstabulation) pode 
tambem ser diretamente obtida ao clicarmos em Analyze —> Descriptive Statistics —» Crosstabs.... Na cai- 
xa de dialogos que e aberta, devemos inserir a variavel PGR_1 (Predicted group) em Row(s) e a variavel atrasado, 
em Column(s). Na sequencia, devemos clicar em OK. Enquanto a Figura 13.57 mostra esta caixa de dialogo, a 
Figura 13.58 apresenta a tabela de classificanao cruzada propriamente dita. 
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Contingency Table for Hosmer and Lemeshow Test 



chegou atrasado a escola? = 
Nao 

chegou atrasado a escola? = 
Sim 

Total 

Observed 

Expected 

Observed 

Expected 

Step 1 1 

31 

31,000 

7 

7,000 

38 

2 

10 

10,000 

52 

52,000 

62 

Step 2 1 

8 

7,977 

0 

,023 

8 

2 

22 

22,381 

4 

3,619 

26 

3 

2 

1,633 

2 

2,367 

4 

4 

9 

8,697 

35 

35,303 

44 

5 

0 

,294 

11 

10,706 

11 

6 

0 

,018 

7 

6,982 

7 

Step 3 1 

8 

7,994 

0 

,006 

8 

2 

20 

20,366 

2 

1,634 

22 

3 

4 

3,637 

4 

4,363 

8 

4 

9 

8,658 

28 

28,342 

37 

5 

0 

,145 

7 

6,855 

7 

6 

0 

,193 

10 

9,807 

10 

7 

0 

,007 

8 

7,993 

8 

Step 4 1 

10 

9,923 

0 

,077 

10 

2 

10 

9,521 

0 

,479 

10 

3 

8 

9,214 

2 

,786 

10 

4 

5 

4,588 

5 

5,412 

10 

5 

4 

3,244 

6 

6,756 

10 

6 

1 

2,189 

9 

7,811 

10 

7 

3 

1,513 

7 

8,487 

10 

8 

0 

,587 

10 

9,413 

10 

9 

0 

,196 

10 

9,804 

10 

10 

0 

,026 

10 

9,974 

10 


Figura 13.56 (cont). 


Voltando a analise dos outputs da Figura 13.56, o procedimento Forward Wald (Stepwise ) elaborado pelo SPSS 
mostra o passo a passo dos modelos que foram elaborados, partindo da inclusao da variavel mais significativa 
(maior estatistica z de Wald entre todas as explicativas) ate a inclusao daquela com menor estatistica de Wald, 
porem ainda com Sig. z < 0,05. Tao importante quanto a analise das variaveis incluidas no modelo final e a ana¬ 
lise da lista de variaveis excluidas (Variables not in the Equation). Assim, podemos verificar que, ao se incluir 
no modelo 1 apenas a variavel explicativa per , a lista de variaveis excluidas apresenta todas as demais. Se, para o 
primeiro passo, houver alguma variavel explicativa que tenha sido excluida, mas que se apresenta de forma signi¬ 
ficativa (Sig. z < 0,05), como ocorre, por exemplo, para a variavel sent , esta variavel sera incluida no modelo no 
passo seguinte (modelo 2). E assim sucessivamente, ate que a lista de variaveis excluidas nao apresente mais ne- 
nhuma variavel com Sig . z < 0,05. A variavel remanescente nesta lista, para o nosso exemplo, e a variavel perfil2 , 
conforme ja discutimos quando da elabora^ao da regressao no Excel e no Stata, e o modelo final (modelo 4 do 
procedimento Forward Wald), que e exatamente aquele ja apresentado nas Figuras 13.12 e 13.28, conta com as 
variaveis explicativas dist, sem,per e perfil3. Desta forma, com base no output Variables in the Equation (passo 
4) da Figura 13.56, podemos escrever a expressao final de probabilidade estimada de que um estudante i chegue 
atrasado a escola: 


1 



O output Variables in the Equation apresenta tambem as odds ratios de cada parametro estimado (Exp(B)), 
que correspondem aquelas obtidas por meio do comando logistic do Stata (Figura 13.33), com os respectivos 
intervalos de confian^a. Caso desejassemos obter os intervalos de confian^a dos parametros, ao inves daqueles 
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Classification Table 3 





Predicted 




chegou atrasado a escola? 







Percentage 


Observed 


Nao 

Sim 

Correct 

Stepl 

chegou atrasado a 
escola? 

Nao 

31 

10 

75,6 



Sim 

7 

52 

88,1 


Overall Percentage 




83,0 

Step 2 

chegou atrasado a 
escola? 

Nao 

Sim 

30 

11 

73,2 


4 

55 

93,2 


Overall Percentage 




85,0 

Step 3 

chegou atrasado a 
escola? 

Nao 

Sim 

28 

13 

68,3 


2 

57 

96,6 


Overall Percentage 




85,0 

Step 4 

chegou atrasado a 
escola? 

Nao 

30 

11 

73,2 


Sim 

3 

56 

94,9 


Overall Percentage 




86,0 


a. The outvalue is ,500 


Variables in the Equation 



B 

S.E. 

Wald 

df 

Sig. 

Exp(B) 

95% C.l.for EXP(B) 

Lower 

Upper 

Stepl* per 

-3,137 

,543 

33,427 

1 

,000 

,043 

,015 

,126 

Constant 

1,649 

,345 

22,797 

1 

,000 

5,200 



Step 2 b sem 

2,193 

,925 

5,618 

1 

,018 

8,959 

1,462 

54,910 

per 

-3,223 

,642 

25,188 

1 

,000 

,040 

,011 

,140 

Constant 

-20,525 

9,297 

4,874 

1 

,027 

,000 



Step 3 C sem 

2,740 

1,086 

6,365 

1 

,012 

15,491 

1,843 

130,201 

per 

-3,709 

,805 

21,215 

1 

,000 

,025 

,005 

,119 

perfil3 

2,670 

1,142 

5,469 

1 

,019 

14,433 

1,541 

135,217 

Constant 

-26,217 

10,906 

5,779 

1 

,016 

,000 



Step 4 d dist 

,204 

,101 

4,073 

1 

,044 

1,226 

1,006 

1,495 

sem 

2,920 

1,011 

8,346 

1 

,004 

18,543 

2,557 

134,456 

per 

-3,776 

,847 

19,893 

1 

,000 

,023 

,004 

,120 

perfil3 

2,459 

1,139 

4,657 

1 

,031 

11,694 

1,253 

109,109 

Constant 

-30,933 

10,636 

8,458 

1 

,004 

,000 




a. Variable(s) entered on step 1: per. 

b. Variable(s) entered on step 2: sem. 

c. Variable(s) entered on step 3: perfil3. 

d. Variable(s) entered on step 4: dist. 


Variables not in the Equation 



Score 

df 

Sig. 

Step 1 Variables dist 

,996 

1 

,318 

sem 

9,170 

1 

,002 

perfil2 

2,206 

1 

,137 

perfil3 

4,669 

1 

,031 

Overall Statistics 

21,729 

4 

,000 

Step 2 Variables dist 

4,904 

1 

,027 

perfil2 

1,157 

1 

,282 

perfil3 

5,955 

1 

,015 

Overall Statistics 

14,154 

3 

,003 

Step 3 Variables dist 

4,099 

1 

,043 

perfil2 

3,221 

1 

,073 

Overall Statistics 

7,336 

2 

,026 

Step 4 Variables perfil2 

3,459 

1 

,063 

Overall Statistics 

3,459 

1 

,063 


Figura 13.56 (cont). 
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Cross-tabs 



Exact... 


Statistics... ; 

SSSSS5BBL 

Cells .. 1 


Format... 






Bootstrap... 1 


D Display clustered bar diarts 
O Suppresstabtes 

| OK j Tpa^te ( Reset Cancel [ help 


Figura 13.57 Caixa de dialogo para elaboragao da tabela de classificagao cruzada. 


Predicted group * chegou atrasado a escota? Crosstabulation 


Count 



chegou atrasado a escola? 

Total 

Nao 

Sim 

Predicted group Nao 

30 

3 

33 

Sim 

11 

56 

67 

Total 

41 

59 

100 


Figura 13.58 Tabela de classifkagao cruzada. 


referentes as chances, nao deveriamos ter marcado a op^ao Cl for exp(B) na caixa de dialogo Options... 
(Figura 13.54). 

Por fim, vamos elaborar a curva ROC no SPSS. Para tanto, apos a estima^ao do modelo final, devemos cli— 
car em Analyze —> ROC Curve..., Uma caixa de dialogo como a apresentada na Figura 13.59 sera aber- 
ta. Devemos inserir a variavel PRE__i (Predicted probability) em Test Variable e a variavel atrasado em State 
Variable, com valor igual a 1 no campo Value of State Variable. Alem disso, em Display, devemos clicar nas 
op^oes ROC Curve e With diagonal reference line. Na sequencia, devemos clicar em OK. 

A curva ROC elaborada encontra-se na Figura 13.60. 

Conforme ja discutimos quando da analise da Figura 13.42, a area abaixo da curva ROC , de 0,938, e conside- 
rada muito boa para definir a qualidade do modelo em termos de previsao de ocorrencia do evento para novas ob¬ 
servances. 
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ROC Curve 


estud ante " ] 

^ distancia percorrida at... 
^ quantidade de semafor... 
Jb period© do dia [per] 

Sb perffl«»2 [perfJ2] 

Sb perfH**3 |perfi3] 
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Figura 13.59 Caixa de dialogo para elaborate) da curva ROC . 
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,938 


Figura 13.60 Curva ROC. 
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13.5.2. Regressao logistica multinomial no software SPSS 

Vamos agora elaborar a modelagem da regressao logistica multinomial no SPSS, por meio do mesmo exem- 
plo utilizado nas se^oes 13.3 e 13.4.2. Os dados encontram-se no arquivo AtrasadoMultinomial.sav e, apos 
o abrirmos, vamos inicialmente clicar em Analyze —> Regression —> Multinomial Logistic.... A caixa de 
dialogo da Figura 13.61 sera aberta. 


«§i Multinomial Logistic Regressior 



Dependent: 


Fadotts): 


Govariate(s): 


Reset 


Model... 


Statistics... 


Criteria... 


Cations... 


Save... 


Bootstrap.. 


Figura 13.61 Caixa de dialogo para elaboragao da regressao logistica multinomial no SPSS. 


Vamos incluir a variavel atrasado em Dependent e as variaveis explicativas quantitativas dist e sem na caixa 
Covariate(s). A caixa Factor(s) devera ser sempre preenchida com variaveis explicativas qualitativas, fato que 
nao se aplica neste nosso exemplo. A Figura 13.62 apresenta esta caixa de dialogo devidamente preenchida. 

Note que devemos definir a categoria de referenda da variavel dependente. Desta forma, em Reference 
Category..., devemos selecionar a op^ao First Category, uma vez que a categoria nao chegou atrasado apre¬ 
senta valores iguais a zero no banco de dados (Figura 13.63). Poderiamos tambem ter selecionado a op^ao 
Custom, com Value igual a 0. Esta ultima op^ao e mais utilizada quando o pesquisador tiver interesse em 
fazer com que determinada categoria intermediary da variavel dependente seja a categoria de referenda do 
modelo. 

Apos clicarmos em Continue, podemos dar sequencia ao procedimento para elabora^ao da modelagem. No 
botao Statistics..., devemos clicar nas op^oes Case processing summary e, em Model, devemos marcar as 
op^oes Pseudo R-square, Step summary, Model fitting information e Classification table. Por fim, em 
Parameters, devemos marcar a op^ao Estimates. A Figura 13.64 mostra esta caixa de dialogo. 

Por fim, apos clicarmos em Continue, devemos selecionar o botao Save..., Nesta caixa de dialogo, vamos se¬ 
lecionar as op^oes Estimated response probabilities e Predicted category, conforme mostra a Figura 13.65. 
Este procedimento faz com que sejam geradas, para cada observa^ao da amostra, as probabilidades de ocorrencia de 
cada uma das tres categorias da variavel dependente e a classifica^ao esperada de cada observa^ao definida com base 
nestas probabilidades. Logo, serao geradas quatro novas variaveis no banco de dados (. ESTt_t , EST2_1 , EST3_1 e 
PRE_i). 

Na sequencia, vamos clicar em Continue e em OK. Os outputs gerados encontram-se na Figura 13.66. 
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Figura 13.62 Caixa de dialogo para elaborate) da regressao logistica multinomial no SPSS 
com inclusao da variavel dependente e das variaveis explicativas. 



Figura 13.63 Definigao da categoria de referenda da variavel dependente. 

For meio destes outputs, podemos inicialmente verificar, com base no teste X 2 (X 2 = 153,01, Sig.% 2 = 0,000 < 0,05 
apresentado no output Model Fitting Information), que a hipotese nula de que todos os parametros f3 jm (j = 1, 
2; m = 1,2) sejam estatisticamente iguais a zero pode ser rejeitada ao ravel de significancia de 5%, ou seja, pelo me- 
nos uma variavel X e estatisticamente significante para explicar a probabilidade de ocorrencia de pelo menos um dos 
eventos em estudo. Ja o output Pseudo R-Square apresenta, diferentemente da regressao logistica binaria, o pseudo 
R 2 de McFadden. O valor desta estatistica, assim como o da estatistica ^ 2 , e exatamente igual aquele calculado manu- 
almente na se^ao 13.3.2 e apresentado na Figura 13.45 quando da estima^ao do modelo no Stata. 










Figura 13.65 Caixa de dialogo para cria^ao das variaveis referentes as probabilidades estimadas 
de ocorrencia de cada categoria e a classifica$ao de cada observa^ao. 
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Model Fitting Information 


Model 

Model 

Fitting 

Criteria 

Likelihood Ratio Tests 

-2 Log 
Likeliho 
od 

Chi- 

Square 

df 

Sig. 

Intercept Only 

Final 

199,841 

46,826 

153,015 

4 

,000 


Pseudo R-Square 


Cox and Snell 

,783 

Nagelkerke 

,903 

McFadden 

,757 


Parameter Estimates 










95% Confidence Interval for Exp 
(B) 

chegou atrasado a escola? 3 


B 

Std. Error 

Wald 

df 

Sig. 

Exp(B) 

Lower Bound 

Upper Bound 

chegou atrasado a 
primeira aula 

Intercept 

-33,135 

12,183 

7,397 

1 

,007 




dist 

,559 

,243 

5,276 

1 

,022 

1,749 

1,085 

2,817 


sem 

1,670 

,577 

8,380 

1 

,004 

5,312 

1,715 

16,453 

chegou atrasado a 
segunda aula 

Intercept 

-62,292 

14,675 

18,018 

1 

,000 



5,318 

dist 

1,078 

,302 

12,718 

1 

,000 

2,940 

1,625 


sem 

2,895 

,686 

17,809 

1 

,000 

18,081 

4,713 

69,363 


a. The reference category is: nao chegou atrasado. 


Classification 



Predicted \ 

Observed 

nao chegou 
atrasado 

chegou 
atrasado a 
primeira aula 

chegou 
atrasado a 
segunda aula 

Percent 

Correct 

nao chegou atrasado 

47 

2 

0 

95,9% 

chegou atrasado a 
primeira aula 

1 

12 

3 

75,0% 

chegou atrasado a 
segunda aula 

0 

5 

30 

85,7% 

Overall Percentage 

48,0% 

19,0% 

33,0% 

89,0% 


Figura 13.66 Outputs da regressao logistica multinomial no SPSS. 


O modelo final pode ser obtido por meio do output Parameter Estimates e e exatamente igual ao apre- 
sentado na Figura 13.19 e obtido por meio do comando mlogit do Stata (Figura 13.45). Com base neste output , 
podemos escrever as expressoes das probabilidades medias estimadas de ocorrencia de cada um dos eventos re- 
presentados pelas categorias da variavel dependente, a saber: 


Probabilidade de um estudante i nao chegar atrasado (categoria 0): 

1 

Pi o _ . , (-33,135+0,559.<H+l,670.5em,) . (-62,292+1,078.^+2,895.5^,) 

1 + C "4-r ; 

Probabilidade de um estudante i chegar atrasado a primeira aula (categoria 1): 


(-33,135+0,559.^+1,670 .sem { ) 


ri\ A , (-33,135+0,559. dist; +1,670. sent ;) . (-62,292+1,078.^+2,895 .sernA 

l + e K ; +e v } 

Probabilidade de um estudante i chegar atrasado a segunda aula (categoria 2): 


(-62,292+1,078.^15/,+2,895.5em ( ) 


Ph = 


1 + e 1 


(-33,135+0, 559.disti+l,670.semi) + ^(-62,292+1,078.^+2,895.5^,) 
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Este mesmo output apresenta tambem as relative risk ratios (Exp(B)) de cada parametro estimado, as quais cor- 
respondem aquelas obtidas por meio do comando rrr do Stata (Figura 13.48), com os respectivos intervalos de 
confian^a. 

Porfim, atabelade classifica^ao (output Classification) mostra,combasenamaiorprobabilidade estimada (P 0 , P tl 
ou Pi 2 ) de cada observa^ao, a classifica^o prevista e a observada para cada categoria da variavel dependente. 
Desta forma, conforme ja apresentado por meio daTabela 13.18, chegamos a um modelo que apresenta um per- 
centual total de acerto de 89,0% (eficiencia global), possuindo um percentual de acerto de 95,9% quando houver 
indica^ao de que nao ocorrera atraso ao se chegar a escola, de 75,0% quando houver indica^ao de que havera 
atraso na primeira aula e de 85,7% quando o modelo indicar que havera atraso na segunda aula. 

13.6. CONSIDERA0ES FINAIS 

A estimagao por maxima verossimilhan^a, embora ainda pouco conhecida por parte de um grande numero de 
pesquisadores, e bastante util para que se estimar parametros quando determinada variavel dependente apresenta- 
-se, por exemplo, na forma qualitativa. 

A situa^ao mais adequada para a aplica^ao de modelos de regressao logistica binaria acontece quando o fe- 
nomeno que se deseja estudar apresenta-se na forma dicotomica e o pesquisador tern a inten^ao de estimar uma 
expressao de probabilidade de ocorrencia do evento definido dentre as duas possibilidades em fun^ao de deter- 
minadas variaveis explicativas. O modelo de regressao logistica binaria pode ser considerado um caso particular 
do modelo de regressao logistica multinomial, cuja variavel dependente tambem se apresenta na forma quali¬ 
tativa, porem agora com mais de duas categorias de evento e, para cada categoria, sera estimada uma expressao 
de probabilidade de sua ocorrencia. 

O desenvolvimento de qualquer modelo de dependencia deve ser feito por meio do correto e consciente 
uso do software escolhido para a modelagem, com base na teoria subjacente e na experiencia e na intuigao do 
pesquisador. 

13.7. EXERCICIOS 

1. Uma empresa de concessao de credito para consumo a pessoas fisicas tern o intuito de avaliar a probabilidade de 
que seus clientes nao cumpram com seus compromissos de pagamento (probabilidade de default). Por meio 
de uma base de dados com 2.000 observa^oes que sao os proprios clientes da companhia que obtiveram credito 
recentemente, a empresa pretende estimar um modelo de regressao logistica binaria utilizando, como variaveis 
explicativas, a idade, o sexo (feminino = 0; masculino = 1) e a renda mensal (R$) de cada individuo. A varia¬ 
vel dependente refere-se ao default propriamente dito (nao default = 0; default — 1). Os arquivos Default.sav e 
Default.dta trazem estes dados e, por meio da estima^ao do modelo de regressao logistica binaria, pede-se: 

a. Analise o nivel de significance do teste ^ 2 . Pelo menos uma das variaveis (idade, sexo e renda) e estatistica- 
mente significante para explicar a probabilidade de default, ao nivel de significance de 5%? 

b. Se a resposta do item anterior for sim, analise o nivel de significance de cada variavel explicativa (testes z 
de Wald). Cada uma delas e estatisticamente significante para explicar a probabilidade de default, ao nivel 
de significance de 5%? 

c. Qual a equa^ao final estimada para a probabilidade media de default ? 

d. Em media, os individuos do sexo masculino tendem a apresentar maior probabilidade de default ao adqui- 
rirem credito para consumo, mantidas as demais condi^oes constantes? 

e. Em media, os individuos com maior idade tendem a apresentar maior probabilidade de default ao adquiri- 
rem credito para consumo, mantidas as demais condi^oes constantes? 

f. Qual a probabilidade media estimada de default de um individuo do sexo masculino, com 37 anos e com 
renda mensal de R$6.850,00? 

g. Em media, em quanto se altera a chance de ser default ao se aumentar a renda em uma unidade, mantidas 
as demais condi^oes constantes? 

h. Qual a eficiencia global do modelo, para um cutoff de 0,5? E a sensitividade e a especificidade, para este 
mesmo cutoff? 
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2. Com o intuito de estudar a fidelidade de clientes, um grupo super mere adista realizou uma pesquisa com 
3.000 consumidores no momento em que o pagamento de suas respectivas compras estava sendo transacionado. 
Como a fidelidade de determinado consumidor pode ser medida com base no seu retorno ao estabelecimento, 
com compra efetuada, dentro de um ano da data da compra anterior, torna-se facil o seu monitoramento por 
meio do acompanhamento do seu CPE Assim, se o CPF de determinado consumidor estiver na base de dados 
da loja, porem nao ocorre compra alguma com este mesmo CPF no periodo de um ano, este consumidor sera 
classificado como sem fidelidade ao estabelecimento. Por outro lado, se o CPF de outro consumidor que tambem 
esteja na base de dados da loja e identificado em outra compra com intervalo de menos de um ano em rela^ao 
a compra anterior, ele sera classificado com a categoria fidelidade ao estabelecimento. A fim de estipular os criterios 
que elevam a probabilidade de que um consumidor apresente fidelidade ao estabelecimento, o grupo supermer- 
cadista coletou as seguintes variaveis de cada um dos 3.000 consumidores, na sequencia os monitorando por um 
periodo de um ano da data daquela especifica compra: 


Variavel 

Descri^ao 

id 

Variavel que substitui o CPF por motivos de confidencialidade. E uma variavel string , varia de 0001 a 
3000 e nao sera utilizada na modelagem. 

fidelidade 

Variavel dependente binaria correspondente ao fato de o consumidor retornar ou nao a loja para 
efetuar nova compra em um periodo menor do que um ano (Nao = 0; Sim = 1). 

sexo 

Sexo do consumidor (feminino = 0; masculino = 1). 

idade 

Idade do consumidor (anos). 

atendimento 

Variavel qualitativa com 5 categorias correspondentes a percep^ao do nivel de atendimento prestado 
pelo estabelecimento na compra atual (pessimo = 1; ruim = 2; regular = 3; bom = 4; otimo — 5). 

sortimento 

Variavel qualitativa com 5 categorias correspondentes a percep^ao de qualidade e variedade do 
sortimento de produtos ofertados pelo estabelecimento quando da compra atual (pessimo = 1; 
ruim = 2; regular = 3; bom = 4; otimo = 5). 

acessibilidade 

Variavel qualitativa com 5 categorias correspondentes a percep^ao de qualidade da acessibilidade ao 
estabelecimento, como estacionamento e acesso a area de vendas (pessimo = 1; ruim = 2; regular = 

3; bom = 4; otimo = 5). 

prego 

Variavel qualitativa com 5 categorias correspondentes a percepgao de pregos ofertados dos produtos 
em rela^ao a concorrencia quando da compra atual (pessimo = 1; ruim = 2; regular = 3; bom = 

4; otimo = 5). 


Por meio da analise do banco de dados presente nos arquivos Fidelidade.sav e Fidelidade.dta, pede-se: 

a. Quando da estima^ao do modelo completo de regressao logistica binaria com todas as variaveis explicativas do 
individuo (sexo e idade) e todas as (n- 1) dummies correspondentes as n categorias de cada uma das variaveis qua¬ 
litative, algumas destas categorias mostraram-se estatisticamente nao significantes para explicar a probabilidade 
de ocorrencia do evento (fidelidade ao estabelecimento varejista), ao nivel de significancia de 5%? 

b. Se a resposta do item anterior for sim, estime a expressao de probabilidade de ocorrencia do evento por 
meio do procedimento Stepwise. 

c. Qual a eficiencia global do modelo, com um cutoff de 0,5? 

d. Desejando estabelecer um criterio que iguale a probabilidade de acerto daqueles que apresentarao fide¬ 
lidade ao estabelecimento varejista a probabilidade de acerto daqueles que nao apresentarao fidelidade, o 
diretor de marketing da empresa analisou a curva de sensibilidade do modelo. Qual o cutoff aproximado 
que iguala estas duas probabilidades de acerto? 

e. Para o modelo final estimado, em rela^ao a um atendimento considerado pessimo, como se comportam, 
em media, as chances de se ter fidelidade ao estabelecimento por parte de consumidores que respondem 
ruim, regular, bom e otimo para este quesito, mantidas as demais condi^oes constantes? 

f. Elabore novamente o item anterior, porem agora utilizando separadamente as variaveis sortimento , acessibi- 
lidade e prego. 

g. Com base na analise das chances, o estabelecimento deseja investir em uma unica variavel perceptual para 
aumentar a probabilidade de que os consumidores tornem-se fieis, fazendo com que deixem de ter per- 
cep^oes pessimas e passem, com maior frequencia, a apresentar percep^oes otimas sobre este quesito. Qual 
seria esta variavel? 
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3. O Ministerio da Saude de determinado pais deseja implementar uma campanha para melhorar os indices de 
colesterol LDL (mg/dL) dos cidadaos por meio do incentivo a pratica de exercicios fisicos e a reduqao do taba- 
gismo e, para tanto, realizou uma pesquisa com 2.304 individuos, em que foram levantadas as seguintes variaveis: 


Variavel 

Descri^ao 

colesterol 

Indice de colesterol LDL (mg/dL). 

cigarro 

Variavel dummy correspondente ao fato de o individuo fumar ou nao (nao fuma = 0; fuma = 1). 

esporte 

Numero de vezes em que pratica atividades fisicas semanalmente. 


Como se sabe que o indice de colesterol e posteriormente classificado segundo valores de referenda, o 
Ministerio da Saude tern por intuito alertar a populaqao sobre os beneficios trazidos pelo habito de se praticar 
atividades fisicas e pela abstinencia do cigarro para a melhora da classificaqao. Desta forma, a variavel colesterol 
sera transformada para a variavel colestquali , descrita a seguir, que apresenta 5 categorias e sera a variavel 
dependente do modelo cujos resultados serao divulgados pelo Ministerio da Saude. 


Variavel 

Descrifao 

colestquali 

Classificagao do indice de colesterol LDL (mg/dL), a saber: 

• Muito elevado: superior a 189 mg/dL (categoria de referenda); 

• Elevado: de 160 a 189 mg/dL; 

• Limitrofe: de 130 a 159 mg/dL; 

• Subotimo: de 100 a 129 mg/dL; 

• Otimo: inferior a 100 mg/dL. 


O banco de dados desta pesquisa encontra-se nos arquivos Colestquali.sav e Colestquali.dta e,por meio da 

estimaqao de um modelo de regressao logistica multinomial com as variaveis cigarro e esporte como explicativas, 

pede-se: 

a. Apresente a tabela de frequences das categorias da variavel dependente. 

b. Por meio da estimaqao de um modelo de regressao logistica multinomial, e possivel verificar que pelo me- 
nos uma das variaveis explicativas e estatisticamente significante para compor a expressao de probabilidade 
de ocorrencia de pelo menos uma das classificagoes propostas para o indice de colesterol LDL, ao nivel de 
significance de 5%? 

c. Quais as equates finais estimadas para as probabilidades medias de ocorrencia das classificaqdes propostas 
para o indice de colesterol LDL? 

d. Quais as probabilidades de ocorrencia de cada uma das classificaqoes propostas para um individuo que nao 
fuma e pratica atividades esportivas apenas uma vez por semana? 

e. Com base no modelo estimado, elabore um grafico da probabilidade de ocorrencia de cada evento 
representado pela variavel dependente em funqao do numero de vezes em que sao realizadas ativida¬ 
des fisicas semanalmente. A partir de qual periodicidade semanal de realizaqao de atividades esportivas 
aumenta-se consideravelmente a probabilidade de que os indices de colesterol LDL passem a ser subo- 
timos ou otimos? 

f. Em media, em quanto se altera a chance de se ter um indice de colesterol considerado elevado, em relaqao 
a um nivel considerado muito elevado, ao se aumentar em uma unidade o numero de vezes em que sao 
realizadas atividades fisicas semanais, mantidas as demais condigoes constantes? 

g. Em media, em quanto se altera a chance de se ter um indice de colesterol considerado otimo, em relaqao 
a um nivel considerado subotimo, ao se deixar de fumar, mantidas as demais condiqoes constantes? 

h. Elabore a tabela de classificaqao com base na probabilidade estimada de cada observaqao da amostra (clas- 
sificaqao prevista e observada para cada categoria da variavel dependente). 

i. Qual a eficiencia global do modelo? Qual o percentual de acerto para cada categoria da variavel depen¬ 
dente? 
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A) Breve Introdugao 

Os modelos de regressao probit, cujo nome se refere a contra^ao de probability unit, podem ser utilizados 
alternativamente aos modelos de regressao logistica binaria, para os casos em que a curva de probabili- 
dades de ocorrencia de determinado evento ajusta-se mais adequadamente a fun^ao densidade de probabi- 
lidade acumulada da distribu^ao normal padrao. 

A ideia da regressao probit foi inicialmente concebida por Bliss (1934a, 1934b) que, ao realizar experimen¬ 
ts com o intuito de descobrir um eficaz pesticida contra insetos que se alimentavam de folhas de uva, acabou 
por representar graficamente a resposta dos insetos para diferentes niveis de concentra^ao do pesticida. Como a 
rela^ao encontrada entre a dose de pesticida e o tempo de resposta seguia uma fun^ao sigmoide (ou curva 5), 
Bliss optou, naquela ocasiao, por transformar a curva sigmoide dose-resposta em uma expressao linear, seguin- 
do o ja conhecido modelo de regressao linear. Duas decadas depois, Finney (1952), apoiando-se nas ideias e nos 
experiments de Bliss, fez relevantes contributes ao publicar um livro intituhdo “ Probit Analysis”. Aindz hoje, 
os modelos de regressao probit sao muito utilizados para a compreensao de relates dose-resposta, quando a res- 
pectiva curva de probabilidades de ocorrencia do evento de interesse, inicialmente representado por uma variavel 
binaria, seguir uma fun^ao sigmoide. 

A variavel dependente segue uma distribui^ao de Bernoulli e, portanto, a expressao da fun^ao-obje- 
tivo (logaritmo da fun^ao de verossimilhan^a) que tern por intuito estimar os parametros OC, (3 1 , /? 2 ,..., fi k de de¬ 
terminado modelo de regressao probit e exatamente a mesma da expressao (13.15) deduzida neste capitulo para 
um modelo de regressao logistica binaria, dada por: 


LL = X{[(^) • 1 to (Pi )] + [0 - Y i )■ ln ( Pi )]} = max 


(13.47) 


O que varia, portanto, entre os modelos de regressao logistica binaria e os modelos de regressao probit e a 
expressao das probabilidades de ocorrencia do evento de interesse p Conforme estudamos, na regressao logistica 
binaria a expressao de p , que apresenta distribui^ao logistica, e dada por: 


l + e ~ Z - 1 + e- {a+ &- X '< + & - X >‘ + "* + A ) 


(13.48) 


Ja para a regressao probit, a expressao das probabilidades de ocorrencia do evento de interesse, que apresentam 
distribui^ao normal padrao acumulada, pode ser expressa por: 


P, = O (Z.) = <5 {cc+f3 r x u + /3 2 .X 2 i +...+J 3 t .X h ) 


(13.49) 


em que O representa a propria fun^ao densidade de probabilidade acumulada da distribui^ao normal padrao. 
Nesse sentido, a expressao (13.49) pode ser escrita conforme segue: 



—oo 


(13.50) 
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que, para facilidade de calculo, pode ser reescrita da seguinte maneira: 

1 


Pi = * + 


1 i 

2 + 2 


f -22] \l 


1-e 


71 


para Z > 0 


Pi= l ~ 


f 


1 1 

—I— . 
2 2 


l-e 


-2.Z 


2 \ 


V 


para Z < 0 


(13.51) 


(13.52) 


A partir das expressoes (13.48), (13.51) e (13.52), podemos elaborar aTabela 13.21, que apresenta valores de 
p em fungao de valores de Z variando de -5 a +5 e torna possivel a comparagao entre as curvas logistica (logit) e 
probit de probabilidades. Note que os valores de p na coluna referente a regressao logit sao exatamente iguais aos 
ja calculados e apresentados naTabela 13.1. Caso o pesquisador opte por elaborar esta tabela no Excel, podera fazer 
uso da fungao =DIST.NORMP.N(Z; 1) para determinar os valores de p na coluna referente a regressao probit. 


Tabela 13.21 Probabilidade de ocorrencia de um evento (p) em 
fungao de Z para os modelos de regressao logit e probit. 


z . 

Regressao Logit 

Regressao Probit 

Pi 

-5 

0,01 

0,00 

-4 

0,02 

0,00 

-3 

0,05 

0,00 

-2 

0,12 

0,02 

-1 

0,27 

0,16 

0 

0,50 

0,50 

1 

0,73 

0,84 

2 

0,88 

0,98 

3 

0,95 

1,00 

4 

0,98 

1,00 

5 

0,99 

1,00 


A partir da Tabela 13.21, podemos elaborar um grafico de p =f(Z), como o apresentado na Figura 13.67. Por 
meio deste grafico, podemos verificar que, embora as probabilidades estimadas em fungao dos diversos valores 
assumidos por Z situam-se entre 0 e 1 para ambos os casos, parametros distintos serao estimados pelos modelos 
logit e probit, visto que diferentes valores de Z sao necessarios para que se chegue a mesma probabilidade de 
ocorrencia do evento de interesse para determinada observagao i. 

Conforme podemos observar pelo grafico da Figura 13.67, as fungoes logit e probit nao sao consideravel- 
mente distintas, principalmente para valores de Z em torno de zero, sendo que os parametros estimados em cada 
caso seguem a relagao (X,Pi 0 git ~^\_ a ^Pprobit\ conforme discute Amemiya (1981). Essa rela^ao tambem sera 
por nos comprovada em exemplo a ser elaborado na proxima segao. 

Nesse sentido, para determinado banco de dados, qual modelo e melhor? O logit ou o probit? 
Conforme aponta Finney (1952), a op^ao pela escolha do modelo probit, em detrimento do modelo logit, da-se, 
em tese, pela aderencia da curva de probabilidades de ocorrencia do evento de interesse a distribuigao normal 
padrao acumulada. Na pratica, entretanto, a decisao pode ser tomada com base em quatro criterios, cujos concei- 
tos ja foram discutidos ao longo deste capitulo: 

• modelo com mais alto valor do logaritmo da fungao de verossimilhanga; 

• modelo com maior pseudo R 2 de McFadden; 

• modelo com mais alto nivel de significancia do teste de Hosmer-Lemeshow (menor estatistica % 2 deste teste); 

• modelo com maior area abaixo da curva ROC. 
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Figura 13.67 Grafico de p = f{Z) para os modelos logit e probit. 


Na sequencia, apresentaremos um exemplo em que e estimado um modelo de regressao probit, cujos resulta- 
dos sao comparados com os obtidos por um modelo de regressao logistica binaria. 

B) Exemplo: Modelo de Regressao Probit no Stata 

Faremos uso do banco de dados Thriatlon.dta, que apresenta dados levantados por meio de uma pesquisa 
realizada com 200 atletas amadores que participaram de determinada prova de triathlon do tipo sprint . O levanta- 
mento consistiu em verificar se determinado atleta completou ou nao a prova, com o intuito de avaliar se tal fato 
relaciona-se com a quantidade de carboidratos, em gramas, por quilo de peso corporal ingerida no dia anterior. 
Para a variavel dependente, como o evento de interesse refere-se a Sim (prova finalizada), essa categoria apresenta 
valores iguais a 1 no banco de dados, ficando a categoria Nao (prova nao finalizada) com valores iguais a 0. Nosso 
intuito, portanto, e estimar os parametros de Z, que e dado, para cada atleta i , por: 

Zf = a + j3\. carboidratos i 

a partir da maximiza^ao do logaritmo da fun^ao de verossimilhan^a apresentada na expressao (13.47), em que: 

Pl - O [Z t ) = O [a + /^ .carboidratos^ 

O modelo proposto para este exemplo pode ser considerado de rela^ao dose-resposta, visto que a quantida- 
de> ou dose, de carboidratos ingeridos no dia anterior a prova de triathlon pode se relacionar com a finaliza^ao 
da mesma. 

No Stata, podemos estimar os parametros do nosso modelo de regressao probit por meio da digita^ao do se- 
guinte comando: 

probit thriatlon carboidratos 

cujos outputs encontram-se na Figura 13.68. 
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Alternativamente a esse comando, poderiamos ter digitado o seguinte comando: 

glm thriatlon carboidratos, family(binomial) link(probit) 

que gera exatamente os mesmos estimadores dos parametros, ja que os modelos de regressao probit tambem se 
inserem dentro do grupo de Modelos Lineares Generalizados ( Generalized Linear Models). 


. probit thriatlon carboidratos 




Iteration 0: log likelihood = -121.31362 
Iteration 1: log likelihood = -97.527113 
Iteration 2: log likelihood = -97.429774 
Iteration 3: log likelihood = -97.429732 
Iteration 4: log likelihood = -97.429732 




Probit regression 

Number 

of obs = 

200 


LR chi2(1) 

47.77 


Prob > 

chi2 = 

0.0000 

Log likelihood = -97.429732 

Pseudo 

R2 

0.1969 

thriatlon | Coef. Std. Err. z 

P>|z| 

[95% Conf. 

Interval] 

carboidratos | .379623 .0600936 6.32 

0.000 

.2618417 

.4974042 

_cons | -1.64247 .2058876 -7.98 

0.000 

-2.046002 

-1.238937 

1 - - . ■ .. .. _ ■■= . --- J l 


Figura 13.68 Outputs da regressao probit no Stata. 


E importante mencionar que um pesquisador mais curioso podera obter esses mesmos outputs por meio do 
arquivo Thriatlon Probit Maxima Ver 0 ssimilhan 9 a.xls, fazendo uso da ferramenta Solver do Excel, con- 
forme padrao tambem adotado ao longo do capitulo e do livro. Neste arquivo, os criterios do Solver ja estao 
previamente definidos. 

Com base nos outputs da Figura 13.68, podemos verificar que os parametros estimados sao estatisticamente 
diferentes de zero, a 95% de confian^a, e a expressao final de probabilidade estimada de que um atleta i complete 
a prova e dada por: 

Pl = <D (—1,642 + 0,379 .carboidratos ) 

Nesse sentido, a probabilidade media estimada de finaliza^ao da prova de triathlon para, por exemplo, um 
participante que tenha ingerido no dia anterior 10 gramas de carboidratos por quilo de peso corporal, pode ser 
obtida por meio da digita^ao do seguinte comando: 

mfx, at(carboidratos = 10) 

O output e apresentado na Figura 13.69 e,por meio do qual, podemos chegar a resposta de 0,984 (98,4%). Essa 
resposta tambem pode ser obtida a partir da seguinte expressao: 

Pi = <D [-1,642 + 0,379.(10)] = <D (2,148) 

em que o valor 2,148 representa a abscissa ( Zscore ) da distribui^ao normal padrao acumulada, que resulta em um 
valor de probabilidade de 0,984. Para fins de verifica^ao, o pesquisador pode digitar o comando display nor¬ 
mal (2.148) no Stata ou ate mesmo a fungao =DIST.NORMP.N(2,148; 1) em qualquer celula do Excel. 


. mfx, at(carboidratos = 10) 
Marginal effects after probit 


y = 
= 

Pr(thriatlon) 
.9843705 

(predict) 




variable | 

dy/dx 

Std. Err. 

z P>|z| 

[ 95% C.I. ] 

X 

carboi~s | 

.0148931 

.01167 

1.28 0.202 

-.007981 .037767 

10 


Figura 13.69 Calculo da probabilidade estimada quando carboidratos = 10 - comando mfx. 
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Alem disso, podemos verificar, assim como para a estima^ao dos modelos de regressao logistica binaria, que 
o Stata tambem apresenta, em seus outputs , o valor do pseudo R 2 de McFadden na estima^ao de modelos de re¬ 
gressao probit, cujo calculo tambem e feito com base na expressao (13.16) e cuja utilidade restringe-se apenas a 
casos em que o pesquisador tiver interesse em comparar dois ou mais modelos distintos (criterio de maior pseu¬ 
do R 2 de McFadden). 

Caso o pesquisador tambem deseje estimar os parametros do modelo correspondente de regressao logistica 
binaria, a fim de compara-los com os obtidos pela modelagem de regressao probit, podera digitar a seguinte se- 
quencia de comandos: 

eststo: quietly logit thriatlon carboidratos 

predict probl 

eststo: quietly probit thriatlon carboidratos 

predict prob2 

esttab, scalars(11) se pr2 

A Figura 13.70 apresenta os principal resultados obtidos em cada estima^ao. 


. eststo: quietly logit thriatlon carboidratos 
(estl stored) 

. predict probl 

(option pr assumed; Pr(thriatlon)) 

. eststo: quietly probit thriatlon carboidratos 
(est2 stored) 

. predict prob2 

(option pr assumed; Pr(thriatlon)) 

. esttab, scalars(11) se pr2 



(1) 

(2) 


thriatlon 

thriatlon 

carboidratos 

0.642*** 

0.380*** 


(0.109) 

(0.0601) 

_cons 

-2.767*** 

-1.642*** 


(0.382) 

(0.206) 

N 

200 

200 

pseudo R-sq 

0.196 

0.197 

11 

-97.52 

-97.43 


Standard errors in parentheses 
* p<0.05, ** pCO.Ol, *** p<0.001 


Figura 13.70 Principals resultados obtidos nas estimates logit e probit. 


A partir dos outputs consolidados, e possivel verificarmos que, embora existam diferen^as entre as estimates 
dos parametros em cada caso, os valores obtidos do logaritmo da fun 9 ao de verossimilhan^a (11, ou log li¬ 
kelihood) e do pseudo R 2 de McFadden sao ligeiramente maiores para o modelo probit (modelo 2 na Figura 
13.70), o que o torna preferivel ao modelo logit para os dados do nosso exemplo. 

Em rela^ao aos parametros estimados propriamente ditos, podemos inclusive chegar as seguintes relates: 

a logit _ -2,767 
^ probit — 1?642 

P logit _ 0,642 _ i ^ 

P probit 0,380 ’ 

que estao de acordo com o discutido por Amemiya (1981). 
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Para efeitos de interpreta^ao, podemos afirmar que, enquanto a ingestao de 1 grama a mais de carboidratos 
por quilo de peso corporal incrementa o logaritmo natural da chance de finaliza^ao da prova de triathlon, em 
media, em 0,642 (modelo logit), o mesmo fato faz com que o Zscore da distribui^ao normal padrao acumulada 
seja incrementado, em media, em 0,380 (modelo probit). 

Na sequencia, podemos estudar e comparar os niveis de significance do teste de Hosmer-Lemeshow e as areas 
abaixo da curva ROC dos dois modelos. Para tanto, devemos digitar os seguintes comandos: 

quietly logit thriatlon carboidratos 
estat gof, group(10) 
lroc, nograph 

quietly probit thriatlon carboidratos 
estat gof, group(10) 
lroc, nograph 

Os novos outputs encontram-se na Figura 13.71. 


|| . quietly logit thriatlon carboidratos jl 

. estat gof, group(10) 


Logistic model for thriatlon, goodness-of-fit test 1 

(Table collapsed on quantiles of 

estimated probabilities) 

number of observations = 

200 

number of groups = 

10 

Hosmer-Lemeshow chi2(8) = 

9.14 

Prob > chi2 = 

0.3305 

. lroc, nograph 


Logistic model for thriatlon 


number of observations = 200 

area under ROC curve = 0.7892 


. quietly probit thriatlon carboidratos I 

. estat gof, group(10) 


Probit model for thriatlon, goodness-of-fit test 

(Table collapsed on quantiles of 

estimated probabilities) 

number of observations = 

200 

number of groups = 

10 

Hosmer-Lemeshow chi2(8) = 

8.93 

Prob > chi2 = 

0.3479 

. lroc, nograph 


Probit model for thriatlon 


number of observations = 200 

area under ROC curve = 0.7892 



Figura 13.71 Testes de Hosmer-Lemeshow e areas abaixo da curva ROC 
obtidos nas estimates logit e probit. 


A partir desses outputs , podemos verificar que as areas abaixo da curva ROC sao iguais nos dois modelos. 
Entretanto, embora as estimates nao apresentem problemas em relagao a qualidade do ajuste proposto, visto que 
nao ha rejei^ao da hipotese nula de que as frequences esperadas e observadas sejam iguais, ao nivel de confianga 
de 95%, o nivel de significance do teste de Hosmer-Lemeshow do modelo probit (% 2 = 8,93, Sig. X 2 = 0,3479) 
e levemente superior ao do modelo logit (X 2 = 9,14, Sig. X 2 = 0,3305), fato que sugere que o primeiro (probit) 
apresenta uma qualidade um pouco melhor do ajuste proposto. 

Por fim, podemos elaborar um grafico que relaciona os valores esperados (previstos) de probabilidade de fi- 
nalizagao da prova de triathlon para cada atleta (variaveis ja geradas prob! e prob2 para, respectivamente, os mo¬ 
delos logit e probit) com a variavel carboidratos. Este grafico e apresentado na Figura 13.72, e o comando para a 
sua gera^ao e: 
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graph twoway scatter thriatlon carboidratos || mspline probl 
carboidratos || mspline prob2 carboidratos ||, legend(label(2 "LOGIT") 
label(3 "PROBIT")) 



Figura 13.72 Probabilidades de ocorrencia do evento (finalizar o triathlon) em fun^ao 
da variavel carboidratos, com ajustes logit e probit. 

Embora este grafico mostre, para os dados deste exemplo, que nao existem diferen^as consideraveis entre os 
ajustes logit e probit, os criterios discutidos favorecem a ado^ao do ultimo. 

E recomendavel, para modelos em que a variavel dependente for binaria, que o pesquisador justifique a ado- 
^ao de determinado criterio de estima^ao, ou ao menos investigue se ha certa aderencia da curva de probabili¬ 
dades de ocorrencia do evento em analise a distribui^ao normal padrao acumulada. Se esse for o caso, os mode¬ 
los de regressao probit podem ser mais adequados para a gera^ao de probabilidades previstas condizentes com a 
realidade estudada. 






Modelos de Regressao para Dados de 
Contagem: Poisson e Binomial Negativo 

A vida e boa somente por duas coisas: estudar matematica e ensind-la. 

Simeon-Denis Poisson 


Ao final deste capitulo, voce tera condigoes de: 

• Estabelecer as circunstancias a partir das quais os modelos de regressao para dados de contagem podem 
ser utilizados. 

• Entender a estimagao dos parametros de urn modelo de regressao Poisson e de urn modelo de regressao 
binomial negativo pelo metodo de maxima verossimilhanga. 

• Avaliar os resultados dos testes estatisticos pertinentes aos modelos de regressao Poisson e binomial 
negativo. 

• Elaborar intervalos de confianga dos parametros do modelo estimado para efeitos de previsao. 

• Estimar modelos de regressao Poisson e binomial negativo em Microsoft Office Excel®, Stata Statistical 
Software® e IBM SPSS Statistics Software® e interpretar seus resultados. 


14.1. INTRODU^AO 

Os modelos de regressao Poisson e binomial negativo fazem parte do que e conhecido por modelos de 
regressao para dados de contagem, e tern por objetivo analisar o comportamento, em relagao a variaveis predito- 
ras, de determinada variavel dependente que se apresenta na forma quantitativa, porem com valores discretos e 
nao negativos (dados de contagem). 

Nestes casos, segundo Ramalho (1996), o modelo classico de regressao linear nao e adequado para explicar 
como uma variavel discreta, que somente pode assumir um pequeno numero de valores estritamente positivos, 
depende de um conjunto de variaveis preditoras. Alem disso, teremos tambem interesse em calcular, apos a esti¬ 
magao do modelo desejado, a probabilidade de ocorrencia do fenomeno em estudo, dado o comportamento das 
variaveis explicativas. 

Segundo o mesmo autor, e comum, quando estamos trabalhando com dados de contagem, iniciarmos a 
estimagao dos parametros por meio de um modelo de regressao Poisson, devido a sua simplicidade. Neste 
caso, a variavel dependente de um modelo de regressao Poisson deve seguir uma distribuigao Poisson com me¬ 
dia igual a variancia. Entretanto, de acordo comTadano, Ugaya e Franco (2009), esta propriedade e frequen- 
temente violada em estudos empiricos, ja que e comum a existencia de superdispersao, ou seja, e frequente 
que a variancia da variavel dependente seja maior do que a sua media. Nestes casos, trabalharemos com a es¬ 
timagao de um modelo de regressao binomial negativo. 

Ainda paraTadano, Ugaya e Franco (2009), os modelos de regressao Poisson e binomial negativo, que tam¬ 
bem se inserem no contexto dos Modelos Lineares Generalizados (Generalized Linear Models), em que 
sao utilizadas classes de modelos que oferecem alternativas para a transformagao dos dados devido ao carater 
nao linear da variavel dependente, tiveram sua origem na decada de 1970, quando Wedderburn (1974) desen- 
volveu a teoria da quasi-verossimilhanga. 

Ao contrario da tradicional tecnica de regressao estimada por meio de metodos de minimos quadrados, os 
modelos de regressao para dados de contagem sao estimados por maxima verossimilhanga e a escolha da melhor 
estimagao depende da distribuigao da variavel dependente, da relagao entre sua media e variancia e do objetivo 
do estudo, com base na teoria subjacente e na experiencia do pesquisador. 
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E comum encontramos exemplos de aplica^ao de modelos de regressao para dados de contagem em econo- 
mia, finan^as, demografia, ecologia e meio-ambiente, atuaria, medicina e veterinaria, entre outras areas do co- 
nhecimento. 

Imagine, por exemplo, que um pesquisador tenha interesse em avaliar a quantidade de vezes que um gru- 
po de pacientes idosos vai ao medico por ano, em fun^ao da idade de cada um deles, do sexo e das carac- 
teristicas dos seus pianos de saude. Um segundo pesquisador deseja estudar a quantidade de ofertas publicas 
de a^oes que sao realizadas em uma amostra de paises desenvolvidos e emergentes num determinado ano, 
com base em seus desempenhos economicos, como infla^ao, taxa de juros, produto interno bruto e taxa de 
investimento estrangeiro. Note que a quantidade de visitas ao medico ou a quantidade de ofertas publicas 
de a^oes sao as variaveis dependentes nos dois casos, sendo representadas por dados quantitativos que assu- 
mem valores discretos e restritos a um determinado numero de ocorrencias, ou seja, sao dados de contagem. 

Entretanto, imagine que a media e a variancia da variavel correspondente ao numero de visitas ao medico por 
ano sejam aproximadamente iguais. Desta forma, poderemos estimar um classico modelo de regressao Poisson. 
Por outro lado, como a dispersao, entre paises, da quantidade de ofertas publicas de a^oes e muito maior do que 
a media geral, estaremos lidando com o fenomeno da superdispersao e, consequentemente, poderemos estimar 
um modelo de regressao binomial negativo. Segundo Cameron eTrivedi (2009), a superdispersao e comumente 
gerada pela presen^a de maior heterogeneidade nos dados entre observa^oes da amostra. 

A Figura 14.1 apresenta, de maneira ilustrativa, uma variavel com distribui^ao Poisson e outra com distri- 
bui^ao binomial negativa. Embora as distributes sejam aparentemente semelhantes, nota-se que a dispersao e 
maior para o segundo caso (Figura 14.1b). 



Figura 14.1 Exemplo de distribui<;ao Poisson e de distribuigao binomial negativa. 


Como a variavel dependente apresenta-se de maneira quantitativa, e muito comum que nao seja estudada a sua 
distribui^ao e, consequentemente, e possivel que um pesquisador desavisado ou iniciante estime o modelo por meio 
da regressao por minimos quadrados ordinarios, inclusive obtendo outputs. Este procedimento esta incorreto, ja 
que podera gerar estimadores viesados, porem infelizmente e mais comum do que parece! 

E importante mencionar que ainda fazem parte dos modelos de regressao para dados de contagem os chama- 
dos modelos de regressao inflacionados de zeros, cujos parametros podem ser estimados quando a variavel 
dependente apresentar uma quantidade consideravel de valores de contagem iguais a zero. Estudaremos especifica- 
mente os modelos inflacionados de zeros dos tipos Poisson e binomial negativo no apendice do presente capitulo. 

Conforme discutido nos capitulos anteriores, os modelos de regressao para dados de contagem tambem de- 
vem ser definidos com base na teoria subjacente e na experiencia do pesquisador, de modo que seja possivel es¬ 
timar o modelo desejado, analisar os resultados obtidos por meio de testes estatisticos e elaborar previsoes. 

Neste capitulo, trataremos dos modelos de regressao para dados de contagem, com os seguintes objetivos: 
(1) introduzir os conceitos sobre os modelos de regressao Poisson e binomial negativo; (2) apresentar a estima- 
£ao por maxima verossimilhan^a em modelos de regressao para dados de contagem; (3) interpretar os resultados 
obtidos e elaborar previsoes; e (4) apresentar a aplica^ao das tecnicas em Excel, Stata e SPSS. Seguindo a logica 
dos capitulos anteriores, sera inicialmente elaborada a solu^ao em Excel de um exemplo concomitantemente a 
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apresenta^ao dos conceitos e a sua resolu^ao manual. Apos a introdu^ao dos conceitos serao apresentados os pro- 
cedimentos para a elabora^ao das tecnicas em Stata e em SPSS. 

14.2. OMODELODE REGRESSAO POISSON 

Os modelos de regressao para dados de contagem tern, por objetivo principal, estudar o comportamento de 
uma variavel dependente, definida por Y, que se apresenta com valores discretos e nao negativos, com base no 
comportamento de variaveis explicativas. Segundo Cameron eTrivedi (2009), o ponto inicial para o estudo dos 
modelos de regressao para dados de contagem e a apresenta^ao da distribui^ao Poisson que, para determinada 
observa^ao i (i— 1,2,..., n, em que n't o tamanho da amostra),possui, analogamente ao apresentado na expressao 
(5.45) do Capitulo 5, a seguinte probabilidade de ocorrencia de uma contagem m em dada exposi^ao (perfodo, 
area, regiao, entre outros exemplos): 

-Aj ^ m 

p(Y { = m) =- L - J -, m — 0,1,2,... (14.1) 

ml 

em que Aeo numero esperado de ocorrencias ou a taxa media estimada de incidencia do fenomeno em estudo 
para dada exposi^ao (em ingles, incidence rate ratio). 

A partir da expressao (14.1), podemos elaborar uma tabela com valores de p em fun^ao dos valores de m. 
Como m e um numero inteiro e nao negativo, pode variar de 0 a + oo e, dessa forma, iremos, apenas para efeitos 
didaticos, utilizar valores inteiros entre 0 a 20. A Tabela 14.1 traz estes valores, para tres situagoes diferentes de A. 


Tabela 14.1 Probabilidade de ocorrencia de uma contagem m para diferentes valores de A. 



A. = 1 

A. = 4 

A = 10 

t 

m 

il 

II 

2 > 

3 

0 

0,3679 

0,0183 

0,0000 

1 

0,3679 

0,0733 

0,0005 

2 

0,1839 

0,1465 

0,0023 

3 

0,0613 

0,1954 

0,0076 

4 

0,0153 

0,1954 

0,0189 

5 

0,0031 

0,1563 

0,0378 

6 

0,0005 

0,1042 

0,0631 

7 

0,0001 

0,0595 

0,0901 

8 

0,0000 

0,0298 

0,1126 

9 

0,0000 

0,0132 

0,1251 

10 

0,0000 

0,0053 

0,1251 

11 

0,0000 

0,0019 

0,1137 

12 

0,0000 

0,0006 

0,0948 

13 

0,0000 

0,0002 

0,0729 

14 

0,0000 

0,0001 

0,0521 

15 

0,0000 

0,0000 

0,0347 

16 

0,0000 

0,0000 

0,0217 

17 

0,0000 

0,0000 

0,0128 

18 

0,0000 

0,0000 

0,0071 

19 

0,0000 

0,0000 

0,0037 

20 

0,0000 

0,0000 

0,0019 


A partir dos dados calculados na Tabela 14.1, podemos elaborar o grafico da Figura 14.2. 

Por meio da analise deste grafico, e possivel verificarmos um achatamento da curva de probabilidades e o seu 
deslocamento para a direita a medida que o numero esperado de ocorrencias (A) aumenta, chegando ao ponto 
de a curva se aproximar de uma distribui^ao normal para valores maiores de A. 
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Figura 14.2 Distribui^ao Poisson - graficos de probabilidade de ocorrencia de uma contagem m 
em fungao do numero esperado de ocorrencias A. 


Na distribui^ao Poisson, a media e a variancia da variavel em estudo devem ser iguais a A, conforme pode ser 
demonstrado a seguir: 

• Media: 


E(y) = X m -' 


ml 


■=*x 


• Variancia: 


Var(Y) = V -—.(m- Xf = V ^^.(m 2 -2.m.A + A 2 ) 

ml rn! 


c( —X 1 

* («-u) 

-\Z' 


= X.l = X 


m =0 


(14.2) 


-X ^m-2 




—X Q m-1 

e .A 


%{m — 2 !) 




(14.3) 


Caso esta propriedade, conhecida por equidispersao da distribui^ao Poisson, seja atendida, poderemos 
estimar um modelo de regressao Poisson, definido da seguinte forma: 


ln (^) = ln(A) = a + Pv x u + PA + - + PA 


(14.4) 


que tambem e chamado de modelo log-linear (ou semilogaritmico a esquerda). Sendo assim, o numero esperado 
de ocorrencias em dada exposi^ao, para determinada observa^ao i, pode ser escrito como: 


^ = e (a+p v X Xi +p 2 .x 2 i +...+fl t .X u ) 


(14.5) 


em que a representa a constante, (3.(j= 1 , 2, ..., k) sao os parametros estimados de cada variavel explicativa, X 
sao as variaveis explicativas (metricas ou dummies) e o subscrito i representa cada observa^ao da amostra (i = 1,2, 
..., n, em que n e o tamanho da amostra). 
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Feita esta pequena introdugao sobre os modelos de regressao Poisson, partiremos, entao, para a estima^ao 
propriamente dita dos seus parametros, por meio da apresentagao de um exemplo elaborado inicialmente 
em Excel. 


14.2.1. Estima^ao do modelo de regressao Poisson por maxima verossimilhan^a 

Seguindo a logica proposta no livro, apresentaremos agora os conceitos pertinentes a estimagao por maxima 
verossimilhanga de um modelo de regressao Poisson por meio de um exemplo similar ao desenvolvido nos capi- 
tulos anteriores. Entretanto, agora a variavel dependente apresentara dados de contagem. 

Imagine que o nosso mesmo professor curioso e investigativo, que ja explorou consideravelmente os efei- 
tos de determinadas variaveis explicativas sobre o tempo de deslocamento de um grupo de alunos ate a esco- 
la e sobre a probabilidade de se chegar atrasado as aulas, por meio, respectivamente, das tecnicas de regressao 
multipla e de regressao logistica binaria e multinomial, tenha agora o interesse em investigar se algumas des- 
tas mesmas variaveis explicativas influenciam a quantidade de vezes que os alunos chegam atrasados durante 
o periodo de uma semana. Desta forma, o fenomeno em questao a ser estudado apresenta-se na forma quan- 
titativa (incidencia de atrasos semanalmente), porem apenas com valores nao negativos e discretos (dados de 
contagem). 

Sendo assim, o professor elaborou uma pesquisa com 100 alunos da escola onde leciona, questionando so¬ 
bre a quantidade de vezes que cada um deles chegou atrasado a escola na semana anterior a pesquisa. Perguntou 
tambern sobre a distancia (em quilometros) que e percorrida ao longo do trajeto (supondo que cada aluno reali¬ 
ze o mesmo trajeto diariamente), o numero de semaforos pelos quais cada um passa e o periodo do dia em que 
cada estudante tern o habito de se deslocar para a escola (manha ou tarde). Parte do banco de dados elaborado 
encontra-se naTabela 14.2. 

Seguindo o que foi definido nos capitulos anteriores em relagao a variavel correspondente ao periodo do dia 
em que e realizado o trajeto, a categoria de referenda sera tarde, ou seja, as celulas do banco de dados com esta 
categoria assumirao valores iguais a 0, ficando as celulas com a categoria manha com valores iguais a 1, conforme 
apresentado naTabela 14.2. 


Tabela 14.2 Exemplo: quantidade de atrasos na semana x distancia percorrida, 
quantidade de semaforos e periodo do dia para o trajeto ate a escola. 


Estudante 

Quantidade 
de atrasos na 
ultima semana 

(Y) 

Distancia percorrida 
ate a escola 
(quilometros) 

< x „> 

Quantidade de 
semaforos 

<**> 

Periodo do dia 

<*H> 

Gabriela 

1 

11 

15 

1 (manha) 

Patricia 

0 

9 

15 

1 (manha) 

Gustavo 

0 

9 

16 

1 (manha) 

Leticia 

3 

10 

16 

0 (tarde) 

Luiz Ovidio 

2 

12 

18 

1 (manha) 

Leonor 

3 

14 

16 

0 (tarde) 

Dalila 

1 

10 

15 

1 (manha) 

Antonio 

0 

10 

16 

1 (manha) 

Julia 

2 

10 

18 

1 (manha) 

Mariana 

0 

9 

13 

1 (manha) 


Filomena 

1 

8 

18 

1 (manha) 


Estela 

0 

8 

13 

1 (manha) 
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A fim de que seja possivel elaborar corretamente um modelo de regressao Poisson, devemos, inicialmente, ve- 
rificar se a media da variavel dependente (quantidade de atrasos) e igual a sua variancia. Enquanto aTabela 14.3 
apresenta estas estatisticas, de onde se pode verificar que sao muito proximas, a Figura 14.3 mostra o histograma 
da variavel dependente do nosso exemplo. 


Tabela 14.3 Media e variancia da variavel dependente (quantidade de atrasos na ultima semana). 


Estatfstica 


Media 

1,030 

Variancia 

1,059 



Figura 14.3 Histograma da variavel dependente. 


Dada a proximidade da media a variancia da variavel dependente, iremos optar por estimar um modelo para 
estudar o comportamento da incidencia de atrasos a escola semanalmente, em fungao da distancia percorrida, da 
quantidade de semaforos e do periodo do dia em que e realizado o trajeto, por meio da regressao Poisson. 

Entretanto, caso a variancia da variavel dependente seja consideravelmente maior do que a sua media, a esti- 
ma^ao de um modelo Poisson podera gerar parametros viesados, por conta do problema conhecido por super- 
dispersao. E sempre recomendavel, portanto, que, apos a estima^ao de um modelo de regressao Poisson, seja 
elaborado um teste para verifica9ao da existencia de superdispersao (que sera abordado na se^ao 14.2.4) 
e, caso sua presen^a seja detectada, sera recomendada a estima^ao de um modelo de regressao binomial negativo 
(se^ao 14.3). 

O banco de dados completo pode ser acessado por meio do arquivo QuantAtrasosPoisson.xls. 

Desta forma, com base na expressao (14.4), o modelo de regressao Poisson a ser estimado sera: 

ln(A f ) = a + fa.dis^ + p 2 .sem i + P 3 -per { 

e a taxa media de incidencia de atrasos semanalmente, para cada estudante, sera dada, com base na expressao 
(14.5), por: 
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Assim como nos modelos de regressao logistica binaria e multinomial, os parametros de um modelo de re¬ 
gressao Poisson sao estimados por maxima verossimilhan^a, em que a variavel dependente segue uma distribui- 
£ao Poisson. Sendo a probabilidade de ocorrencia de uma especifica contagem m em determinada exposi^ao (no 
nosso exemplo, o perfodo de uma semana) para uma observa^ao i em uma amostra com n observances dada pela 
expressao (14.1), podemos definir a fun^ao de verossimilhan^a para modelos de regressao Poisson como sendo: 


«=i 



(14.6) 


de onde vem que o logaritmo da fun^ao de verossimilhan^a (log likelihood function) pode ser escrito como: 

LL = X[-A i + (^).ln(A 1 .)-ln(^!)] (14.7) 

t=l 

Portanto, podemos fazer a seguinte pergunta: Quais os valores dos parametros do modelo proposto 
que fazem com que o valor de LL da expressao ( 14 . 7 ) seja maximizado? Esta importante questao e a 
chave central para a elabora^ao da estima^ao por maxima verossimilhan^a (ou maximum likelihood estimation) em 
modelos de regressao Poisson, e pode ser respondida com o uso de ferramentas de programa^ao linear, a fim de 
que sejam estimados os parametros a, j8 t , /3 2 ,..., (3 k com base na seguinte fun^ao-objetivo: 

n 

LL = 2[-^,+(l')ln(A,)-ln(yl)] = max (14.8) 


Iremos resolver este problema com o uso da ferramenta Solver do Excel e utilizando os dados do nosso 
exemplo. Para tanto, devemos abrir o arquivo QuantAtras0sP0iss0nMaximaVer0ssimilhan9a.xls, que servi- 
ra de auxilio para o calculo dos parametros. 

Neste arquivo, alem da variavel dependente e das variaveis explicativas, foram criadas duas novas variaveis, 
que correspondem, respectivamente, a taxa esperada semanal de incidencia A e ao logaritmo da fun^ao de ve- 
rossimilhan^a LL. para cada observa^ao. A Tabela 14.4 mostra parte dos dados quando os parametros a, fi 2 e 
j8 3 forem iguais a 0. 


Tabela 14.4 Calculo de LL quando a = /3 1 = /3 2 = /3 3 = 0. 


Estudante 

Y 

t 

Xu 

** 

X v 

3i 

A. 

LL, 

-1 +(y.).ln(A,)-ln(y.!) 

Gabriela 

1 

11 

15 

1 

1,00000 

“1,00000 

Patricia 

0 

9 

15 

1 

1,00000 

- 1,00000 

Gustavo 

0 

9 

16 

1 

1,00000 

- 1,00000 

Leticia 

3 

10 

16 

0 

1,00000 

-2,79176 

Luiz Ovidio 

2 

12 

18 

1 

1,00000 

-1,69315 

Leonor 

3 

14 

16 

0 

1,00000 

-2,79176 

Dalila 

1 

10 

15 

1 

1,00000 

- 1,00000 

Antonio 

0 

10 

16 

1 

1,00000 

-1,00000 

Julia 

2 

10 

18 

1 

1,00000 

-1,69315 

Mariana 

0 

9 

13- 

1 

1,00000 

- 1,00000 


Filomena 

1 

8 

18 

1 

1,00000 

-1,00000 


Estela 

0 

8 13 1 

1,00000 

-1,00000 

Somatoria 

100 

LL = + ( Y.). In (A.) - In (^!)J 

1=1 

-133,16683 
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A 

8 

c 

D 

E 

F 

G 

1 

Estudante 

Atrasos (Y) 

Distancia (Xi) 

Semaforos (X 2 ) 

Periodo (X 3 ) 

h 

LU 

2 

Gabriela 

1 

11 

15 

1 

1.00000 

-1.00000 

3 

Patncia 

0 

9 

15 

1 

1,00000 

-1.00000 

4 

Gustavo 

0 

9 

16 

1 

1,00000 

-1.00000 

5 

Letfcia 

3 

10 

16 

0 

1,00000 

-2,79176 

6 

Lui 2 Ovfdio 

2 

12 

18 

1 

1,00000 

-1.69315 

7 

Leonor 

3 

14 

16 

0 

1,00000 

-2,79176 

8 

Dalila 

1 

10 

15 

1 

1,00000 

-1.00000 

9 

AntSnio 

0 

10 

16 

1 

1,00000 

-1,00000 

10 

Julia 

2 

10 

18 

1 

1,00000 

-1.69315 

11 

Mariana 

0 

9 

13 

i 

1,00000 

-1,00000 

12 

Roberto 

1 

9 

15 

1 

1.00000 

-1.00000 

13 

Renata 

1 

9 

15 

i 

1,00000 

-1,00000 

14 

Guilherme 

2 

12 

17 

1 

1.00000 

-1,69315 

15 

Rodrigo 

1 

9 

12 

1 

1,00000 

-1,00000 

16 

Giulia 

0 

11 

11 

1 

1.00000 

-1.00000 

17 

Felipe 

2 

9 

17 

1 

1,00000 

-1,69315 

J 8 J 

Karina 

1 

11 

14 

1 

1,00000 

-1,00000 

19 

Pietro 

1 

11 

15 

1 

1,00000 

-1,00000 

20 

Cecilia 

0 

11 

15 

1 

1,00000 

1 -1.00000 

21 

Gisele 

0 

9 

14 

1 

1,00000 

-1,00000 

22 

Elaine 

1 

. 11 

13 

1 

1,00000 

-1.00000 

23 

Kamal 

0 

9 

14 

1 

1,00000 

-1.00000 

24 

Rodolfo 

0 

11 

. 15 

1 

1.00000 

-1,00000 

25 

Pilar 

1 

11 

13 

1 

1,00000 

-1,00000 

JB 

Vivian 

. .2 

. 13 .~ 

16 

1 

1.00000 

-1,69315 

27 

Danielle 

0 

9 

11 

1 

1,00000 

-1,00000 

28 

Juliana 

0 

. 9 . 

16 

1 

1,00000 

-1.00000 

101 

Estela 

0 

8 

13 

1 

1.00000 

-1.00000 

102 








103 





1 

Somatoria LL* 

-133,16683 


■ s y ~~r 


a I 0,0000 1 
[ 0,0000 1 
P 2 I 0,0000 1 
& I omp 1 


Figura 14.4 Dados do arquivo QuantAtrasosPoissonMaximaVerossimilhanta.xls. 


A Figura 14.4 apresenta parte dos dados presentes neste arquivo do Excel. 

Como podemos verificar, quando a — /3 t = fi 2 = = 0, o valor da somatoria do logaritmo da fun^ao de ve- 

rossimilhan^a e igual a -133,16683. Entretanto, deve haver uma combina^ao otima de valores dos parametros, de 
modo que a fun^ao-objetivo apresentada na expressao (14.8) seja obedecida, ou seja, que o valor da somatoria do 
logaritmo da fun^ao de verossimilhan^a seja o maximo possivel. 

Seguindo a logica proposta por Belfiore e Favero (2012), vamos entao abrir a ferramenta Solver do Excel. 
A fun^ao-objetivo esta na celula G103, que e a nossa celula de destino e que devera ser maximizada. Alem disso, 
os parametros a, /3 , jS 2 e (3 y cujos valores estao nas celulas J3,J5,J7 e J9, respectivamente, sao as celulas variaveis. 
A janela do Solver ficara como mostra a Figura 14.5. 

Ao clicarmos em Resolver e em OK, obteremos a solu^ao otima do problema de programa^ao linear. 
ATabela 14.5 apresenta parte dos resultados obtidos. 

Logo, o valor maximo possivel da somatoria do logaritmo da fun^ao de verossimilhan^a e LL m&x = -107,61498. 
A resolu^ao deste problema gerou as seguintes estimativas dos parametros: 

a = -4,3801 
P t = 0,2221 
P 2 = 0,1646 
P 3 = -0,5731 

e, assim, podemos escrever o nosso modelo log-linear estimado da seguinte forma: 

ln(A.) = -4,3801 + 0,2221. dist { + 0,1646.5cm. -0,5731 .per 


com taxa media de incidencia de atrasos semanalmente dada, para cada estudante, por: 


_ (—■ 4 , 3801 + 0 , 2221 . dist; + 0 , 1646 . semi— 0 , 5731 . per { } 


A Figura 14.6 apresenta parte dos resultados obtidos pela modelagem. 











Gabriela 

1 

11 

15 

1 

0,96026 

-1,00081 

Patricia 

0 

9 

15 

1 

0,61581 

-0,61581 

Gustavo 

0 

9 

16 

1 

0,72601 

-0,72601 

Leticia 

3 


16 

0 

1,60809 

-1,97471 

Luiz Ovidio 

2 

12 

18 

1 

1,96485 

-1,30717 

Leonor 

3 

14 

16 

0 

3,91008 

-1,61117 

Dalila 

1 

10 

15 

1 

0,76899 

-1,03167 

Antonio 

0 

10 

16 

1 

0,90659 

-0,90659 

Julia 

2 

10 

18 

1 

1,26006 

-1,49089 

Mariana 

0 

9 

13 

1 

0,44306 

-0,44306 


Filomena 

1 

8 

18 

1 

0,80808 

-1,02117 


Estela 

0 

8 

13 

1 

0,35481 

-0,35481 


100 

LL = X[-A l+ (y).ln(A,)-ln(y!)] 


Somatoria 


-107,61498 
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A 

8 

c 

0 

E 

F 

G 

1 

Estudante 

Atrasos (Y) 

Distancia (Xi) 

Semaforos (Xj) 

Periodo (X s ) 

h 

LL} 

2 

Gabriels 

1 

11 

15 

1 

0,96026 

-1,00081 

3 

Patricia 

0 

9 

15 

1 

0,61581 

-0,61581 

4 

Gustavo 

0 

9 

16 

. 1 ... 

0,72601 

-0,72601 

5 

Leticia 

3 

10 

18 

0 

1,60809 

-1,97471 

6 

Luiz Ow'dio 

2 

12 

18 

1 

1,96485 

-1,30717 

7 

Leonor 

3 

14 

16 

0 

3.91008 

-1,61117 

8 

Dafiia 

1 

10 

15 

1 

0,76899 

-1,03167 

9 

Antdnio 

0 

10 

16 

1 

0,90659 

-0,90659 

10 

Julia 

2 

10 

18 

1 

1,26006 

-1,49089 

11 

Mariana 

0 

9 

13 

1 

0,44306 

-0,44306 

12 

Roberto 

1 

9 

15 

1 

0,61581 

-1,10062 

13 

Renata 

1 

9 

15 

1 

0,61581 

-1,10062 

14 

Guilherme 

2 

12 

17 

1 

1,66663 

-1,33817 

15 

Rodrigo 

1 

9 

12 

1 

0.37582 

-1,35447 

JS 

Giulia 

0 

11 

11 

1 

0,49708 

-0,49708 

17 

Felipe 

2 

9 

17 

1 

0,85592 

-1,86023 

J! 

Karina 

1 

11 

14 

1 

0,81451 

-1,01968 

19 

Pietro 

1 

11 

15 

1 

0,96026 

-1,00081 

20 

Cecilia 

0 

11 

15 

1 

0,96026 

-0,96026 

21 

Gisele 

0 

9 

14 

1 

0,52235 

-0,52235 

22 

Elaine 

1 

11 

13 

1 

0,69088 

-1,06067 

M. 

Kama! 

0 

9 

14 

1 

0,52235 

-0,52235 

24. 

Rodolfo 

0 

11 

15 

1 

0,96026 

-0.96026 

21 

Pilar 

1 

11 

13 

1 

0,69088 

-1,06067 

26 

Vivian 

2 

13 

16 

1 

1,76529 

-1,32181 

27 

'Danielle 

0 

9 

11 

1 

0,31878 

-0,31878 

23 

Juliana 

0 

9 

16 

1 

0,72601 

-0,72601 

101 

fstela 

0 

8 

13 

1 

0,35481 

-0,35481 

102 

103 

|somat6rialL, -107,61498| 


i 1 J 


a I 4,3801 I 

0i 1 0,2221 .| 

02 I 0,1646 | 

03 1 - 0,5731 | 


Figura 14.6 Obtengao dos parametros quando da maximiza^ao de LL pelo Solver. 


Estimados os parametros do modelo de regressao Poisson, podemos propor quatro interessantes perguntas: 

Qual e a quantidade media esperada de atrasos na semana quando se desloca 12 quilometros e 
se passa por 17 semaforos diariamente, sendo o trajeto feito a tarde? 

Em media, em quanto se altera a taxa de incidencia semanal de atrasos ao se adotar um percur- 
so 1 quilometro mais longo, mantidas as demais condi£oes constantes? 

Em media, em quanto se altera a taxa de incidencia semanal de atrasos ao se passar por 1 sema- 
foro a mais no percurso ate a escola, mantidas as demais condi^oes constantes? 

Em media, em quanto se altera a taxa de incidencia semanal de atrasos ao se optar por ir a es¬ 
cola de manha, em vez de se ir a tarde, mantidas as demais condi^oes constantes? 

Antes de respondermos a estas importantes questoes, precisamos verificar se todos os parametros estimados 
sao estatisticamente significantes a um determinado nivel de confian^a. Se nao for este o caso, precisaremos re- 
estimar o modelo final, a fim de que sejam apresentados apenas parametros estatisticamente significantes para, a 
partir de entao, ser possivel a elabora^ao de inferencias e previsoes. 

Portanto, tendo sido elaborada a estima^ao por maxima verossimilhan^a dos parametros da equa^ao da ta¬ 
xa media de incidencia de atrasos semanalmente, partiremos para o estudo da significance estatistica geral do 
modelo obtido, bem como das significances estatisticas dos parametros, de forma analoga ao realizado nos ca- 
pitulos anteriores. 

14.2.2. Significance estatistica geral e dos parametros do modelo de regressao Poisson 

Assim como para os modelos de regressao logistica binaria e multinomial, para os modelos de regressao 
Poisson pode ser calculado o pseudo R 2 de McFadden, dado pela seguinte expressao: 

pseudo R 2 = - 2 - LL °-(- 2 - LL ^) (14.9) 

—2.LL 0 

e cuja utilidade e bastante limitada e restringe-se a casos em que o pesquisador tiver interesse em escolher um 
determinado modelo em detrimento de outros, prevalecendo aquele que apresentar o maior pseudo R 2 de 
McFadden. 

Seguindo a mesma logica proposta no capitulo anterior, iremos inicialmente calcular LL Q , que e dado pe¬ 
lo valor maximo da somatoria do logaritmo da fun^ao de verossimilhan^a para um modelo em que ha apenas 
a constante a, conhecido por modelo nulo. Por meio do mesmo procedimento elaborado na se$ao 14.2.1, 
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Figura 14.7 Solver - Maximizagao da somatoria do logaritmo da fun^ao de verossimilhan^a para o modelo nulo. 

porem agora utilizando o arquivo QuantAtrasosPoissonMaximaVerossimilhan 9 aModeloNulo.xls, obte- 
remos LL Q = -133,12228. As Figuras 14.7 e 14.8 mostram, respectivamente, a janela do Solver e parte dos resul- 
tados obtidos pela modelagem neste arquivo. 

No nosso exemplo, conforme ja discutimos na se^ao anterior e ja calculamos por meio do Solver do 
Excel, LL mdx , que e o valor maximo possivel da somatoria do logaritmo da fun^ao de verossimilhan^a, e igual a 
-107,61498. 

Logo, com base na expressao (14.9), obteremos: 

0 —2.(—133,12228) — f (—2.(—107,61498))] 

pseudo R = --- - ——-— - = 0,1916 

-2.(-133,12228) 

Conforme discutimos, um maior pseudo R 2 de McFadden pode ser utilizado como criterio para escolha de 
um modelo em detrimento de outro. Entretanto, nao e adequado para avaliar o percentual de variancia da varia- 
vel dependente que e explicado pelo conjunto de variaveis explicativas consideradas no modelo. 

Embora a utilidade do pseudo R 2 de McFadden seja limitada, softwares como o Stata e o SPSS fazem seu 
calculo e o apresentam em seus respectivos outputs , conforme veremos nas se^oes 14.4 e 14.5, respectivamente. 

Analogamente ao procedimento apresentado nos capitulos anteriores, inicialmente iremos estudar a signifi- 
cancia estatistica geral do modelo que esta sendo proposto. O teste X 2 propicia condi^oes a verifica^ao da sig- 
nificancia do modelo, uma vez que suas hipoteses nula e alternativa, para um modelo de regressao Poisson, sao, 
respectivamente: 

H 1 :ft = ft = ... = fc = 0 

existe pelo menos um (3. ^ 0 
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A 

B 

c 

D 

E 

F 

G 

Hill J 1 

1 

Estudante 

Atrasos (V) 

Distancia (Xi) 

Semaforos (X 2 ) 

Perfodo (X$) 

h 

LLi 


2 

Gabriela 

1 

11 

15 

1 

1,03000 

-1.00044 

3 

Patricia 

0 

9 

15 

1 

1.03000 

-1.03000 

a 1 0.0296 | 

4 

Gustavo 

0 

9 

16 

i 

1.03000 

-1,03000 


5 

Leticia 

3 

10 

16 

0 

1.03000 

-2,73308 

6 

Luiz CMdto 

2 

12 

18 

i 

1.03000 

-1,66403 


7 

Leonor 

3 

14 

16 

6 

1.03000 

-2,73308 


8 

Dalila 

1 

10 

15 

i 

1,03000 

-1,00044 

9 

Antfinio 

0 

10 

16 

i 

1,03000 

-1,03000 

10 

Julia 

2 

10 

18 

i 

1.03000 

-1,66403 

11 

Mariana 

0 

9 

13 

i 

1.03000 

-1,03000 

12 

Roberto 

1 

9 

15 

i 

1.03000 

-1,00044 

13 

Renata 

1 

9 

15 

i 

1,03000 

-1,00044 

14 

Guilherme 

2 

12 

17 

i 

1.03000 

-1,66403 

15 

Rodrigo 

1 

9 

12 

i 

1.03000 

-1,00044 

16 

Giulia 

0 

11 

11 

i 

1.03000 

-1,03000 

J7_ 

Felipe 

2 

9 

17 

1 

1,03000 

-1.66403 

J8. 

Karina 

1 

11 

14 

i 

1.03000 

-1,00044 

J9. 

Pietro 

1 

11 

15 

i 

1.03000 

-1,00044 

20. 

Cecilia 

. 0 

. 11 . 

15 

i 

1,03000 

-1,03000 

2L 

Gisele 

0 

9 

14 

“ i 

1,03000 

-1,03000 

_22_ 

Elaine 

1 

11 

13 

i. 

1.03000 

-1,00044 

23 

Kamal 

o 

9 

14 

1 

1.03000 

! -1,03000 

24 

Rodolfo 

0 

11 

15 

. ~“T 

1,03000 

-1.03000 


25 

Pilar 

1 

H 

13 

... i ... 

1,03000 

-1,00044 

26 

Vivian 

2 

. 13 ... 

'16 

i 

1,03000 

-1,66403 


27 

Danielle 

o 

. 9 . 

. 11 . 

i 

1,03000 

-1,03000 

28_ 

Juliana 

0 

9 

16 

i 

1,03000 

-1.03000 

121 

Estela 

0 

8 

13 

i 

1.63000 

-1.03000 

102 

103 

|Somat6ria L| -133,12228) 



Figura 14.8 Obten^ao dos parametros quando da maximizaq:ao de LL pelo Solver - modelo nulo. 


Conforme ja discutimos no capitulo anterior, o teste X 2 e adequado para se avaliar a significancia conjunta dos 
parametros do modelo quando este for estimado pelo metodo de maxima verossimilhan^a, como nos casos 
dos modelos de regressao logistica binaria e multinomial e de regressao para dados de contagem. 

O teste X 2 propicia ao pesquisador uma verifica^ao inicial sobre a existencia do modelo que esta sendo pro- 
posto, uma vez que, se todos os parametros estimados /3. (j = 1,2,..., k ) forem estatisticamente iguais a 0, o 
comportamento de altera^ao de cada uma das variaveis X nao influenciara em absolutamente nada a taxa de in- 
cidencia do fenomeno em estudo. Conforme tambem ja apresentado no capitulo anterior, a estatistica X 2 tern a 
seguinte expressao: 

X 2 =-2.(LL 0 -LL mix ) (14.10) 


Voltando ao nosso exemplo, temos que: 

X\ gL = -2.[-133,12228 -(-107,61498)] = 51,0146 

Para 3 graus de liberdade (numero de variaveis explicativas consideradas na modelagem, ou seja, numero de pa¬ 
rametros j8), temos,por meio daTabela D do apendice do livro, que o X 2 C = 7,815 (X 2 critico para 3 graus de liberdade 
e para o nivel de significancia de 5%). Desta forma, como o X 2 calculado X 2 ca i = 51,0146 > X 2 C ~ 7,815, podemos 
rejeitar a hipotese nula de que todos os parametros ft. ( j = 1,2,3) sejam estatisticamente iguais a zero. Logo, pelo 
menos uma variavel X e estatisticamente significante para explicar a incidencia de atrasos a escola semanalmente 
e teremos um modelo de regressao Poisson estatisticamente significante para fins de previsao. 

Softwares como o Stata e o SPSS nao oferecem o X 2 C P ara os graus de liberdade definidos e um determinado 
nivel de significancia. Todavia, oferecem o nivel de significancia do X 2 cd P ara estes graus de liberdade. Desta for¬ 
ma, em vez de analisarmos se X 2 cai > X 2 C > devemos verificar se o nivel de significancia do X 2 cal e rnenor do que 0,05 
(5%) a fim de darmos continuidade a analise de regressao. Assim: 

Se valov-P (ou P-value ou Sig. X 2 ml ou Pvob. X 2 ca ) < 0,05, existe pelo menos um /3. ^ 0. 

Na sequencia, e preciso que o pesquisador avalie se cada um dos parametros do modelo de regressao Poisson 
e estatisticamente significante e, neste sentido, a estatistica z de Wald sera importante para fornecer a significan¬ 
cia estatistica de cada parametro a ser considerado no modelo. Conforme ja discutido no capitulo anterior, a 












Modelos de Regressao para Dados de Contagem: Poisson e Binomial Negative) 707 

nomenclatura z refere-se ao fato de que a distribui^ao desta estatistica e a distribui^ao normal padrao, e as hipo- 
teses do teste z de Wald para o a e para cada fi. (j = 1, 2, k) sao, respectivamente: 

H 0 :a = 0 
H -a*0 


H 0 :^ = 0 
H r A * 0 


As expressoes para o calculo das estatisticas z de Wald de cada parametro a e (3 sao dadas, respectivamente, por: 


a 


z„ = 


a s.e.(a) 


(14.11) 


z fij “' 


ft 


-tft) 


em que s.e. significa o erro-padrao (. standard error) de cada parametro em analise. Dada a complexidade do cal¬ 
culo dos erros-padrao de cada parametro, nao o faremos neste momento, porem recomendamos a leitura de 
McCullagh e Nelder (1989). Os valores de s.e. de cada parametro, para o nosso exemplo, sao: 


s.e. (a) = 1,160 
s.e. (fi x ) = 0,066 
s.e. 0 B 2 ) = 0,046 
s.e. (/3 3 ) = 0,262 

Logo, como ja calculamos as estimativas dos parametros, temos que: 


a 

-4,3801 

s.e.(a) 

1,160 

_ A 

_ 0,2221 

' s-e-(A) 

~ 0,066 

_ A 

_ 0,1646 

! s.e.(p 2 ) 

~~ 0,046 

_ A _ 

-0,5731 

1 

Y* 

1 

0,262 


= -3,776 


= 3,365 


= 3,580 


= -2,187 


Apos a obten^ao das estatisticas z de Wald, o pesquisador pode utilizar a tabela de distribui^ao da curva nor¬ 
mal padrao para obten^ao dos valores criticos a um dado nivel de significancia e verificar se tais testes rejeitam 
ou nao a hipotese nula. 

Conforme discutimos no capitulo anterior, para o nivel de significancia de 5%, temos, por meio da Tabela 
E do apendice do livro, que o z c = -1,96 para a cauda inferior (probabilidade na cauda inferior de 0,025 para a 
distribui^ao bicaudal) e z = 1,96 para a cauda superior (probabilidade na cauda superior tambem de 0,025 para 
a distribui^ao bicaudal). 

Assim como no caso do teste £ 2 , os pacotes estatisticos tambem oferecem os valores dos niveis de significancia 
dos testes z de Wald, o que facilita a decisao,ja que, com 95% de nivel de confian^a (5% de nivel de significancia), 
teremos: 


Se valor-P (ou P-value ou Sig. z cal ou Prob. z J) < 0,05 para a, a ^ 0 
e 


Se valor-P (ou P-value ou Sig. z m1 ou Prob. zJ) < 0,05 para determinada variavel explicativa X, (3 ^ 0. 
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Sendo assim, como todos os valores de < -1,96 ou > 1,96, os valores-P das estatisticas z de Wald < 0,05 
para todos os parametros estimados e,portanto,ja chegamos ao modelo final de regressao Poisson, sem que haja a 
necessidade de uma eventual aplica^ao do procedimento Stepwise estudado nos capitulos anteriores. Logo, a taxa 
media estimada de atrasos por semana para determinado aluno i e dada por: 

^ _ ^(-4,3801+0,2221.^,.+0,1646.5^-0,5731.^) 

e, desta forma, podemos retornar as nossas quatro importantes perguntas, respondendo uma de cada vez: 

Qual e a quantidade media esperada de atrasos na semana quando se desloca 12 quilometros e se 
passa por 17 semaforos diariamente, sendo o trajeto feito a tarde? 

Fazendo uso da expressao da taxa media estimada de atrasos em uma semana e substituindo os valores forne- 
cidos nesta equa^ao, teremos: 

^ _ ^[—4,3801+0,2221.(12)+0,1646.(17)—0,5731.(0)] — 2 

Logo, espera-se que determinado aluno que e submetido a estas caracteristicas ao se deslocar a escola apre- 
sente, em media, uma quantidade de 2,95 atrasos por semana. Como a variavel atrasos e discreta, dificilmente 
existirao observa^oes em modelos de regressao Poisson com termos de erro com valores inteiros ou ate mes- 
mo iguais a zero. 

Em media, em quanto se altera a taxa de incidencia semanal de atrasos ao se adotar um percur- 
so 1 quilometro mais longo, mantidas as demais condi^oes constantes? 

Fazendo uso da mesma expressao, temos que: 


0,2221 

e 


= 1,249 


Logo, mantidas as demais condi^oes constantes, a taxa de incidencia semanal de atrasos ao se adotar um percur- 
so 1 quilometro mais longo e, em media, multiplicada por um fator de 1,249, ou seja, e, em media, 24,9% maior. 

Em media, em quanto se altera a taxa de incidencia semanal de atrasos ao se passar por 1 sema- 
foro a mais no percurso ate a escola, mantidas as demais condi^oes constantes? 

Neste caso, teremos: 


Logo, mantidas as demais condi^oes constantes, a taxa de incidencia semanal de atrasos ao se adotar um per¬ 
curso com 1 semaforo a mais e, em media, multiplicada por um fator de 1,179, ou seja, e, em media, 17,9% maior. 

Em media, em quanto se altera a taxa de incidencia semanal de atrasos ao se optar por ir a es¬ 
cola de manha, em vez de se ir a tarde, mantidas as demais condi^oes constantes? 

Neste ultimo caso, teremos: 


Logo, mantidas as demais condi^oes constantes, a taxa de incidencia semanal de atrasos ao se optar por ir a 
escola de manha, em vez de se ir a tarde, e, em media, multiplicada por um fator de 0,564, ou seja, e, em media, 
43,6% menor. 

Conforme podemos perceber, estes calculos utilizaram sempre as estimativas medias dos parametros. Partiremos 
agora para o estudo dos intervalos de confian^a destes parametros. 


14.23. Constru^ao dos intervalos de confian^a dos parametros do modelo de regressao Poisson 

Igualmente ao apresentado no capitulo anterior, os intervalos de confian^a dos coeficientes da expressao (14.4), 
para os parametros a e /3. (j = 1, 2,..., fe), ao nivel de confian^a de 95%, podem ser escritos, respectivamente, da se- 
guinte forma: 

a±\,96.[s.e.(a)\ (14.12) 


Pj —1.96. s.e.(/?.) 


em que, conforme vimos, 1,96 e o ^ para o nivel de confian^a de 95% (nivel de significancia de 5%). 
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Tabela 14.6 Calculo dos intervalos de confianga dos parametros. 


Parametro 

Coeficiente 

Erro-Padrao 

(s.e.) 

z 

Intervalo de Confianga (95%) 

a -1,96. [s.e. (a)] 
/J y -l,96.[ S .e. (/}.)] 

<2 + 1,96. [s.e. (a)] 

Pj+1,96 

a (constante) 

-4,3801 

1,160 

-3,776 

-6,654 

-2,106 

/3 1 (variavel dist) 

0,2221 

0,066 

3,365 

0,093 

0,351 

(variavel sem) 

0,1646 

0,046 

3,580 

0,074 

0,254 

/3 3 (variavel per) 

-0,5731 

0,262 

-2,187 

-1,086 

-0,060 


Assim sendo, podemos elaborar a Tabela 14.6, que traz os coeficientes estimados dos parametros da expressao 
log-linear do nosso exemplo, com os respectivos erros-padrao, as estatisticas z de Wald e os intervalos de confian- 
9 a para o nivel de significance de 5%. 

Esta tabela e igual a que obteremos quando estimarmos este modelo de regressao Poisson por meio do Stata 
e do SPSS (segoes 14.4 e 14.5, respectivamente). 

Com base nos intervalos de confianga dos parametros, podemos escrever as expressoes dos limites inferior (mi- 
nimo) e superior (maximo) do modelo log-linear de regressao Poisson, com 95% de confianga. Assim, teremos: 

In (A. )^ n = -6,654 + 0,093 .dist + 0,074. sem. -1,086 .per { 

ln(A.) m4x = -2,106 4- 0,351 .dist i 4- 0,254. sem. - 0,060 .per { 

A partir da expressao (14.5), o intervalo de confianga da taxa estimada de incidencia do fenomeno em es- 
tudo ( incidence rate ratio , ou irr) correspondente a alteragao em cada parametro /3 (j = 1 , 2 , ..., fe), ao nivel de 
confianga de 95%, pode ser escrito da seguinte forma: 

e /},±l,96.[„(/J,)] (14.13) 

Note que nao apresentamos a expressao do intervalo de confianga da taxa de incidencia correspondente ao 
parametro a , uma vez que so faz sentido discutirmos a mudanga na taxa de incidencia do fenomeno em estudo 
quando e alterada em uma unidade determinada variavel explicativa do modelo, mantidas todas as demais con- 
digoes constantes. 

Para os dados do nosso exemplo e com base nos valores da Tabela 14.6, vamos, entao, elaborar a Tabela 14.7, 
que apresenta os intervalos de confianga da taxa de incidencia do fenomeno de interesse para cada parametro /3. 

Estes valores tambem poderao ser obtidos por meio do Stata e do SPSS, conforme mostraremos, respectiva¬ 
mente, nas segoes 14.4 e 14.5. 

Conforme ja discutido nos capitulos anteriores, se o intervalo de confianga de um determinado parametro 
contiver o zero (ou da taxa de incidencia contiver o 1 ), o mesmo sera considerado estatisticamente igual a ze¬ 
ro para o nivel de confianga com que o pesquisador estiver trabalhando. Se isso acontecer com o parametro a, 


Tabela 14.7 Calculo dos intervalos de confianga da taxa de incidencia A (irr) para cada parametro 


Parametro 

Taxa de Incidencia A (irr) 

Intervalo de Confianga de A (95%) 

S' 

/j-whAPj)] 

e P J+ l,96 ( S .e.(^)] 

(variavel dist) 

1,249 

1,097 

1,421 

P 2 (variavel sem) 

1,179 

1,078 

1,289 

(variavel per) 

0,564 

0,337 

0,942 
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recomenda-se que nada seja alterado na modelagem, uma vez que tal fato e decorrente da utiliza^ao de amostras 
pequenas, e uma amostra maior poderia resolver este problema. Por outro lado, se o intervalo de confian^a de um 
parametro j3 contiver o zero (o que nao aconteceu neste nosso exemplo), este devera ser excluido do modelo 
final quando da elabora^ao do procedimento Stepwise. 

Da mesma forma que para os modelos de regressao logistica, a rejei^ao da hipotese nula para um determinado 
parametro /3, a um especificado nivel de significancia, indica que a correspondente variavel X e significativa para 
explicar a taxa de incidencia do fenomeno em estudo e, consequentemente, deve permanecer no modelo final 
de regressao para dados de contagem. Podemos, portanto, concluir que a decisao pela exclusao de determinada 
variavel X em um modelo de regressao para dados de contagem pode ser realizada por meio da analise direta da 
estatistica z de Wald de seu respectivo parametro /3 (se -z c < z x < z c —> valor-P > 0,05 —> nao podemos rejeitar 
que o parametro seja estatisticamente igual a zero) ou por meio da analise do intervalo de confian^a (se o mesmo 
contiver o zero). O Quadro 14.1 apresenta os criterios de inclusao ou exclusao de parametros /3. (j = 1,2,..., k) 
em modelos de regressao para dados de contagem. 


Quadro 14.1 Decisao de inclusao de parametros fi.e m modelos de regressao para dados de contagem. 


Parametro 

Estatistica z de Wald (para 
nivel de significancia a) 

Teste £ (analise do valor-P para 
nivel de significancia a) 

Analise pelo Intervalo 
de Confian^a 

Decisao 

A 

-Z < 2 < 2^ 

c all ^ cal c a/2 

valor-P > nivel de sig. a 

O intervalo de 
confian^a contem o 

zero 

Excluir o 
parametro 
do modelo 

Z , > Z /0 

cal c a/2 

OU 

£ , < -z nn 

_ ssL _ lM 2 _ 

valor-P < nivel de sig. a 

O intervalo de 
confian^a nao contem 
o zero 

Manter o 

parametro 
no modelo 


Obs.: O mais comum em ciencias sociais aplicadas e a ado^ao do nivel de significancia a = 5%. 


14.2.4. Teste para verifica^ao de superdispersao em modelos de regressao Poisson 

Cameron e Trivedi (1990) propoem um interessante procedimento para verifica^ao da existencia de superdis¬ 
persao em modelos de regressao Poisson. Para tanto, e preciso que seja gerada uma variavel Y* da seguinte maneira: 




Y = 


(14.14) 


em que A.eo numero esperado de ocorrencias para cada observa^ao da amostra apos a estima^ao do modelo de 
regressao Poisson e (Y — A.) e a diferen^a entre o numero real de ocorrencias e o numero previsto de ocorrencias 
para cada observa^ao (equivale ao termo de erro da regressao multipla). 

ATabela 14.8 apresenta parte do banco de dados com a variavel Y* Para fins didaticos, criamos um arquivo espe- 
cifico em Excel para que seja elaborado este teste, nomeado de QuantAtrasosPoissonTesteSuperdispersao.xls. 

Apos a gera^ao de Y*, devemos estimar o seguinte modelo auxiliar de regressao simples, sem a constante: 


Y* = 


(14.15) 


Cameron e Trivedi (1990) destacam que, se ocorrer o fenomeno da superdispersao nos dados, o parametro /3 
estimado por meio do modelo representado pela expressao (14.15) sera estatisticamente diferente de zero, a um 
determinado nivel de significancia. 

Vamos, entao, estimar a regressao auxiliar proposta, clicando em Dados —> Analise de Dados —> Regressao 
—> OK. Na caixa de dialogo para inser^ao dos dados, devemos inserir as variaveis Y* e A, conforme mostra a 
Figura 14.9. Nao devemos nos esquecer de marcar a op^ao Constante e zero. 

Na sequencia, vamos clicar em OK. O output desejado desta estima^ao encontra-se na Figura 14.10. 
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Tabela 14.8 Calculo da variavel Y*. 



Gabriela 

1 

0,96026 

-1,03974 

Patricia 

0 

0,61581 

0,61581 

Gustavo 

0 

0,72601 

0,72601 

Leticia 

3 

1,60809 

-0,66077 

Luiz Ovidio 

2 

1,96485 

-1,01726 

Leonor 

3 

3,91008 

-0,55542 

Dalila 

1 

0,76899 

-1,23101 


Antonio 

0 

0,90659 

0,90659 

Julia 

2 

1,26006 

-1,15271 

Mariana 

0 

0,44306 

0,44306 




Figure 14.10 Resultado do teste para verifica^ao de existencia de superdispersao. 
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Como o valor-P do teste t correspondente ao parametro /3 da variavel A e maior do que 0,05,podemos afirmar 
que os dados da variavel dependente nao apresentam superdispersao, fazendo com que o modelo de regres¬ 
sao Poisson estimado seja adequado pela presen^a de equidispersao nos dados. Se nao fosse esse o caso, de- 
veriamos partir para a estima^ao de um modelo de regressao binomial negativo, a ser discutido na proxima se^ao. 

14.3. O MODELO DE REGRESSAO BINOMIAL NEGATIVO 

Conforme discutimos, os modelos de regressao binomial negativo tambem sao enquadrados nos chamados 
modelos de regressao para dados de contagem, sendo apropriados para estima^ao quando a variavel dependen¬ 
te for quantitativa e com valores inteiros e nao negativos (dados de contagem) e quando houver superdispersao 
nos dados. 

Oliveira (2011) enfatiza que o interesse em se contar o numero de ensaios necessarios para que seja obtido 
o numero desejado de ocorrencias pode conduzir a uma distribui^ao binomial negativa, conforme discutimos 
no Capitulo 5. Segundo Lord e Park (2008), esta distribui^ao, primeiramente derivada por Greenwood e Yule 
(1920), e tambem conhecida por distribui^ao Poisson-Gama por ser uma combina^ao de duas distributes que 
foi desenvolvida para levar em consideragao o fenomeno da superdispersao que e comumente observado em da¬ 
dos de contagem. Ainda segundo os autores, leva este nome por aplicar o teorema binomial com um expoente 
negativo. 

Se, por exemplo, a media do numero de ocorrencias de uma distribui^ao Poisson possuir uma parcela aleato- 
ria, a expressao (14.5) passara ser escrita da seguinte maneira: 




(14.16) 

de onde vem que: 


X _ e ( a +Pv X li+p2- X 2i+- + Pk‘ X ki) e ( £ i) 

(14.17) 

que pode ser escrita como: 


> 

II 

(14.18) 


e que possui uma distribui^ao binomial negativa, em que o primeiro termo (w.) representa o valor esperado de 
ocorrencias e possui uma distribui^ao Poisson e o segundo termo (V.) corresponde a parcela aleatoria do numero 
de ocorrencias da variavel dependente e possui uma distribui^ao Gama. 

Para determinada observa^ao i (i = 1, 2,..., n, em que n e o tamanho da amostra), a fun^ao da distribui^ao de 
probabilidade da variavel V sera dada por: 

p(v,)= ±, t -, v. =0,1,2,... (14.19) 

r(vO 

em que l ff e chamado de parametro de forma (y/> 0), 5 e chamado 
e inteiro, pode ser aproximado por(l ff — l)l. 

Com distribui^ao Gama, teremos, para a variavel V, que: 

• Media: 

bm -5 

• Variancia: 

Mv) = ^ (14.21) 

Analogamente ao realizado na se^ao 14.2,podemos elaborar, com base na expressao (14.19), uma tabela com 
valores de p em fun^ao de valores de V (Tabela 14.9), variando-se V. de 1 a 20 e com tres diferentes combina- 
^oes de y/ e 8. 

A partir dos dados calculados na Tabela 14.9,podemos elaborar o grafico da Figura 14.11. 

Apenas como curiosidade, a distribui^ao X 2 & um caso particular da distribui^ao Gama quando y/ = 0,5 e 
8 = fe/2, em que k e um numero inteiro e positivo. 


de parametro de taxa (S > 0 ) e, para If/ > 0 


(14.20) 



Modelos de Regressao para Dados de Contagem: Poisson e Binomial Negativo 713 


Tabela 14.9 Distribui$ao Gama - fun^oes de probabilidade de v. para diferentes valores de y/e 8. 
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Fazendo uso da expressao (14.18), podemos transformar a fun^ao de probabilidade da distribui^ao Gama apre- 
sentada na expressao (14.19) como uma fun^ao do valor esperado de ocorrencias da distribui^ao Poisson (u), de 
modo que: 


p( u i) 


r 

' y/ ' 

Vi J 


XV-e 




(14.22) 


Seguindo Lord e Park (2008), podemos combinar as expressoes (14.1) e (14.22), de modo a gerar a fun^ao da 
probabilidade de uma distribui^ao binomial negativa, o que nos permitira calcular a probabilidade de ocorrencia 
de uma contagem m, dada determinada exposi^ao. Desta forma, teremos: 


p( Y i =m) = j 


e^X” 


ml 


V* 

K u < J 


-V 

XV.e 


r(v) 




de onde vem que: 


(14.23) 


p(Y,=m)= VV V 

V ‘ ’ T(m + l).T(yf) 


¥ 


V f 


X+¥ 


U- 


+ y/ 


m — 0 , 1 , 2 ,... 


(14.24) 


que tambem pode ser escrita como: 


p{ Y i =m) = 


f m + y/-l ^ ( 


¥ -l 


¥ 


\v 


m ( + y/ 


Uj +yf 


m = 0 , 1 , 2 ,... 


(14.25) 


que representa a fun^ao de probabilidade da distribui^ao binomial negativa para a ocorrencia de uma contagem 
m, com as seguintes estatisticas: 

• Media: 


E(Y) = u 

• Variancia: 


(14.26) 


Var(Y) = u + 0.u 2 


(14.27) 


em que 0 = —. 

¥ 

Desta forma, o segundo termo da expressao de variancia da distribui^ao binomial negativa representa a super- 
dispersao e, caso verifiquemos que 0 —> 0 , este fenomeno nao estara presente nos dados, podendo ser estimado 
um modelo de regressao Poisson, j a que a media da variavel dependente sera igual a sua variancia. Entretanto, caso 
0 seja estatisticamente maior do que zero, a existencia de superdispersao faz com que deva ser estimado um mo¬ 
delo de regressao binomial negativo. Na se^ao 14.3.1, o parametro 0 sera estimado juntamente com os parame- 
tros do modelo de regressao binomial negativo por meio da maximiza^ao da somatoria do logaritmo da fun^ao 
de verossimilhan^a, que ainda sera definida, com o uso da ferramenta Solver do Excel. E importante ressaltarmos 
que softwares como o Stata e o SPSS estimam o valor de 0 (inverso do parametro de forma X//) e apresentam o 
seu intervalo de confian^a, a partir do qual se torna possivel avaliarmos se o mesmo e ou nao estatisticamente 
igual a zero, conforme estudaremos, respectivamente, nas se^oes 14.4 e 14.5. 

O modelo de regressao binomial negativo a ser estimado neste capitulo e tambem conhecido por modelo 
de regressao NB2 (negative binomial 2 regression model), dada a especifica^ao quadratica da variancia apresen- 
tada na expressao (14.27). Entretanto, existem trabalhos que utilizam a expressao de variancia como sendo apenas: 


Var(Y) = u + 0.w 


(14.28) 
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e, desta forma, o modelo estimado e conhecido por modelo de regressao NB1 (negative binomial 1 regression 
model), porem, segundo Cameron eTrivedi (2009), os modelos de regressao NB2, com especificagao quadratica 
da variancia, sao preferiveis aos modelos de regressao NB1 por frequentemente apresentarem melhores aproxi- 
magoes as fungoes mais gerais de variancia. 

Com base nas expressoes (14.25), (14.26) e (14.27), iremos, a seguir, defmir a expressao da somatoria do lo- 
garitmo da fungao de verossimilhanga da distribuigao binomial negativa, que devera ser maximizada. Seguindo o 
padrao adotado, estimaremos um modelo de regressao binomial negativo (NB2) com base na elaboragao de um 
exemplo a ser resolvido inicialmente por meio da ferramenta Solver do Excel. 

143.1. Estimagao do modelo de regressao binomial negativo por maxima verossimilhanga 

Apresentaremos, agora, os conceitos pertinentes a estimagao por maxima verossimilhanga de um modelo de 
regressao binomial negativo por meio de um exemplo similar ao desenvolvido na segao 14.2. 

Imagine que o professor de continuidade a pesquisa sobre a quantidade de atrasos dos alunos, porem agora 
com contagem nao mais semanal e, sim, de forma mensal. Apos o termino do mes, o professor realizou a pesqui¬ 
sa com os mesmos 100 alunos da escola onde leciona, questionando agora sobre a quantidade de vezes que cada 
um chegou atrasado neste ultimo mes. As variaveis X sao as mesmas, ou seja, distancia percorrida ate a escola (em 
quilometros), numero de semaforos pelos quais cada um passa e o periodo do dia em que cada estudante tern o 
habito de se deslocar para a escola (manha ou tarde). Parte do banco de dados encontra-se naTabela 14.10. 

ATabela 14.11 apresenta a media e a variancia da variavel dependente, por meio da qual podemos verificar 
que a variancia e consideravelmente maior do que sua media, gerando indicios sobre a existencia de superdis- 
persao dos dados. 


Tabela 14.10 Exemplo: quantidade de atrasos no mes x distancia percorrida, quantidade 
de semaforos e periodo do dia para o trajeto ate a escola. 


Estudante 

Quantidade de atrasos 
no ultimo mes 
(Y) 

Distancia percorrida 
ate a escola 
(quilometros) 

<*.,) 

Quantidade 
de semaforos 

<**> 

Periodo do dia 
(*„> 

Gabriela 

5 

11 

15 

1 (manha) 

Patricia 

0 

9 

15 

1 (manha) 

Gustavo 

0 

9 

16 

1 (manha) 

Leticia 

6 

10 

16 

0 (tarde) 

Luiz Ovidio 

7 

12 

18 

1 (manha) 

Leonor 

4 

14 

16 

0 (tarde) 

Dalila 

5 

10 

15 

1 (manha) 

Antonio 

0 

10 

16 

1 (manha) 

Julia 

1 

10 

18 

1 (manha) 

Mariana 

0 

9 

13 

1 (manha) 


Filomena 

1 

8 

18 

1 (manha) 


Estela 

0 

8 

13 

1 (manha) 


Tabela 14.11 Media e variancia da variavel dependente (quantidade de atrasos no ultimo mes). 


Estatfstica 


Media 

1,820 

Variancia 

5,422 
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A Figura 14.12 apresenta o histograma da variavel dependente para dados de contagem mensal, de onde po- 
demos perceber que a dispersao e maior do que aquela apresentada no grafico da Figura 14.3, elaborada para 
dados de contagem semanal. 

Quando da estima^ao dos parametros do modelo, iremos tambem estimar o parametro 0 da expressao (14.27), 
para que seja verificado se o mesmo e diferente de zero (existencia de superdispersao) e, consequentemente, para 
que fa^a sentido a estima^ao do modelo de regressao binomial negativo. 

O banco de dados completo elaborado nesta nova investiga^ao pode ser acessado por meio do arquivo 
QuantAtrasosBNeg.xls. Estimaremos os parametros do modelo para avaliar a quantidade mensal esperada de 
atrasos de chegada a escola que, com base na expressao (14.5), sera dada por: 

__ ( a+p 1 .dist i +p 2 -sem i +p 3 .per i ) 

If . c 


Com base na expressao (14.24), podemos escrever o logaritmo da fun^ao de verossimilhan^a {log likelihood 
function) de um modelo de regressao binomial negativo (NB2) como sendo: 


LL = X 


f 

y;..in 

V 


1 + (j).U i j 


ln(l + ^,.) + in r ^^■ + 0~ 1 )-ln r (y < + 1 )_ lnr (0~ 1 ) 


(14.29) 


Portanto, podemos fazer a seguinte pergunta: Quais os valores dos parametros do modelo proposto 
que fazem com que o valor de LL da expressao (14.29) seja maximizado? Esta importante questao e a 
chave central para a elabora^ao da estima^ao por maxima verossimilhan^a (ou maximum likelihood estimation) em 
modelos de regressao binomial negativo, e pode ser respondida com o uso de ferramentas de programa^ao linear, 
a fim de que sejam estimados os parametros 0, a , /3 ? , /3 2 ,..., j3 k com base na seguinte fun^ao-objetivo: 


LL = X 


Y.ln 


1 + 0.M. 


+ inr( y;. + (j)- 1 ) - Inr(y, + 1 ) - Inr(0“‘) 


= max (14.30) 
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Iremos resolver este problema com o uso da ferramenta Solver do Excel e utilizando os dados do nosso 
exemplo. Para tanto, devemos abrir o arquivo QuantAtrasosBNegMaximaVerossimiIhanpa.xls, que servira 
de auxilio para o calculo dos parametros. 

Neste arquivo, alem da variavel dependente e das variaveis explicativas, foram criadas duas novas variaveis, que 
correspondem, respectivamente, ao valor esperado de ocorrencias mensais u com distribui^ao Poisson e ao loga- 
ritmo da fun^ao de verossimilhan^a LL. proveniente da expressao (14.29) para cada observaipao. 

Vamos, portanto, abrir a ferramenta Solver do Excel. A fun^ao-objetivo esta na celula G103, que e a nossa 
celula de destino e que devera ser maximizada. Alem disso, os parametros 0, a, f3 v fi 2 e /3., cujos valores estao nas 
celulas J2,J4,J6,J8 e J10, respectivamente, sao as celulas variaveis. Alem disso, devemos impor uma restri^ao de 
que 0 > O.Ajanela do Solver ficara como mostra a Figura 14.13. 

Ao clicarmos em Resolver e em OK, obteremos a solu^ao otima do problema de programa^ao linear. A 
Tabela 14.12 apresenta parte dos resultados obtidos. 


Parametros do Solve! 


Defritr Obietivo: 
Pera: ©pjax. 


$G$103 



O O )L&x de: 


Aiterendo Celulss Verigves: 





Sujato as Restrisoss: 



□ Tcmer VeriSvss Irrestrites Ngo Negatives 



E&fuir 


j RedeffrtirTydo ] 

|— -1 

| gsjregsr/SsSvfir 1 


S^etions7 inn Metodo de StdusSo: 


M£tado de So!usbo 

SeJecione o rnecenismo GRGNSo Linear psra Protenss do Solver susves e neo Eneeres. Ssfedoneo 
metsnsmo LP EmjrieK pare Protenss do Solver Eneeres. Seledone o mecE7rsmo Evolutionary para 
pretense do ate' nSo susves. 


GIG NSo linear 


Ajuda 


Resolver 


Fethsr 


Figura 14.13 Solver - Maximiza^ao da somatoria do logaritmo da fun^ao de verossimilhan^a. 
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-0,89171 

-2,68117 
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-0,51814 
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-151,01230 

sf 
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>T 
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II 
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Estudante 

Gabriela 

Patricia 

Gustavo 

Leticia 

Luiz Ovidio 

Leonor 

Dalila 

Antonio 

Julia 

Mariana 

Filomena 

Estela 

Somatoria 
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Logo, o valor maximo possivel da somatoria do logaritmo da fun^ao de verossimilhan^a e LL m , x — -151,01230. 
A resolu^ao deste problema gerou as seguintes estimativas dos parametros: 

0 = 0,2553 
a = -4,9976 
j3 t = 0,3077 
jS 2 = 0,1973 
jS 3 = -0,9274 

Como 0^0, daremos sequencia a estima^ao do modelo de regressao binomial negativo, porem quando 
estimarmos este modelo por meio dos softwares Stata e SPSS, respectivamente nas se^oes 14.4 e 14.5, verificare- 
mos que 0 e de fato estatisticamente diferente de zero. Caso um pesquisador mais curioso estimasse um modelo 
de regressao binomial negativo no banco de dados utilizado na se^ao 14.2, verificaria que a estimagao de 0 ~ 0, 
como ja era de se esperar, visto que o teste para verifica^ao de existencia de superdispersao nao rejeitou a hipo- 
tese nula de equidispersao para aquele caso. 

Logo, a expressao da quantidade mensal esperada de atrasos de chegada a escola pode ser escrita da seguinte 
forma: 

(—4,9976+0, IQni.dist: +0,1973.5ew,—0,9274.p«i) 

u. = e K ' 

A Figura 14.14 apresenta parte dos resultados obtidos pela modelagem. 

Estimados os parametros do modelo de regressao binomial negativo, podemos voltar as quatro perguntas pro- 
postas ao final da se^ao 14.2.1, porem agora para dados de contagem mensal: 

Qual e a quantidade media esperada de atrasos no mes quando se desloca 12 quilometros e se 
passa por 17 semaforos diariamente, sendo o trajeto feito a tarde? 

Em media, em quanto se altera a taxa de incidencia mensal de atrasos ao se adotar um percurso 
1 quilometro mais longo, mantidas as demais condi^oes constantes? 

Em media, em quanto se altera a taxa de incidencia mensal de atrasos ao se passar por 1 sema- 
foro a mais no percurso ate a escola, mantidas as demais condi^oes constantes? 

Em media, em quanto se altera a taxa de incidencia mensal de atrasos ao se optar por ir a escola 
de manha, em vez de se ir a tarde, mantidas as demais condi^oes constantes? 



A 

B 

c 

0 

E 

F 

G 

H|!i J 1 

1 

Esttidante 

Atrasos (Y) 

Distancia (Xi) 

Semaforos p( 2 ) 

Periodo (X 3 ) 

Ui 

LL. 


2 

Gabriela 

5 

ii 

15 

1 

1,52099 

-3.70395 

* 1 0,2553 | 

3 

Patricia 

0 

9 

15 

1 

0,82205 

-0.74622 


4 

Gustaw 

0 

9 

16 

1 

1,00138 

-0.89171 

a I 4,9976 1 

5 

Leticia 

6 

10 

16 

0 

3,44343 

-2.68117 


6 

Luiz Ovfdio 

7 

12 

18 

1 

3,73985 

-2.94546 

0, | 0,3077 | 

7 

Laonor 

4 

14 

16 

0 

11,78834 

-3.09516 


8 

Dalila 

5 

10 

15 

1 

1,11818 

-4,55597 

fc 1 0.1973 | 

9 

Antfinio 

0 

10 

16 

1 

1,36212 

-1,16895 


10 

Julia 

1 

10 

18 

1 

2,02126 

-1.34220 

fe 1 -0.9274 | 

11 

Mariana 

0 

9 

13 

1 

0,55397 

-0.51814 


12 

Roberto 

2 

9 

15 

1 

0,82205 

-1.98495 

13 

Renata 

0 

9 

15 

1 

0,82205 

-0,74622 

14 

Guilherme 

4 

12 

17 

1 

3.07009 

-2,06459 

15 

O 

I 

1 

9 

12 

1 

0,45476 

-1,32807 


Giulia 

0 

11 

11 

1 

0,69074 

-0,63616 

_17_ 

Felipe 

3 

9 

17 

1 

1.21984 

-2,43101 

18 

Karina 

3 

11 

14 

1 

1.24860 

-2,39972 

i9. 

Pietro 

1 

11 

15 

1 

1.52099 

-1,19384 

JL 

Cecilia 

5 

11 

15 

1 

1.52099 

-3,70395 

21 

Gisele 

0 

9 

14 

1 

0.67483 

-0,62261 

22 

Elaine 

2 

11 

13 

1 

1.02499 

-1,79178 



Kamal 

0 

9 

14 

1 

0,67483 

-0.62261 

24 

Rodolfo 

~ 0 


. 15.... 

. 1 . 

1.52099 

-1,28509 


25 

Pilar 

0 

11 

13 

1 

1.02499 

-0.91047 

_26_ 

Vivian 

4 

13 

16 

1 

3.42817 

-2,01900 

_27_ 

Oanielie 

0 

9 

U 

1 

0.37332 

-0,35658 

20 , 

Juliana 

0 

9 

16 

1 

1.00138 

-0.89171 

101 

Estela 

0 

8 

13 

1 

0.40726 

-0.38745 

102 

103 

|Somat6riaLL( -151,01230) 


Figura 14.14 Obten^ao dos parametros quando da maximiza^ao de LL pelo Solver. 
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Antes de respondermos a estas importantes questoes, precisamos novamente verificar se todos os parametros 
estimados sao estatisticamente significantes a um determinado nivel de confian^a. Se nao for este o caso, precisa- 
remos reestimar o modelo final, a fim de que o mesmo apresente apenas parametros estatisticamente significantes 
para, a partir de entao, ser possivel a elabora^ao de inferences e previsoes. 

Partiremos, portanto, para o estudo da significance estatistica geral do modelo de regressao binomial negativo 
estimado, bem como das significances estatisticas dos parametros, de forma analoga ao realizado na se^ao 14.2.2. 


143.2. Significanda ©statistical geiral e dos parametros do modelo de regressao binomial 
negative 

A fim de que possam ser calculados o pseudo R 2 de McFadden e a estatistica^ 2 , com base,respectivamente,nas ex- 
pressoes (14.9) e (14.10) ,vamos,inicialmente,calcular LL Q ,que e dado pelo valor maximo dasomatoria do logaritmo da 
fungao de verossimilhan^a da expressao (14.29) para um modelo em que ha apenas a constante a , conhecido 
por modelo nulo. Por meio do mesmo procedimento elaborado na se^ao 14.3.1, porem agora utilizando 
o arquivo QuantAtras 0 sBNegMaximaVer 0 ssimilhan 9 aM 0 del 0 Nul 0 .xls, obteremos LL Q = -186,63662. 
As Figuras 14.15 e 14.16 mostram, respectivamente, a janela do Solver e parte dos resultados obtidos pela mo¬ 
delagem neste arquivo. 

Desta forma, temos que: 


pseudo R 


2 


-2.(-182,63662)- (—2.(—151,01230))] 

---^- - 11 = 0,1732 

-2.(-182,63662) 


Parametros do Solver 


$1$2 >= 0,0001 


O Tomar Vsriaves Irrestntas Nao Negatrvas 

Sdtedonar um Metodo de Sohx^b; 


GRG Nao linear 


S3 


Definfr Objebvo: $G$1Q3 


m 

Parat ©Wax. 0% | 

0 

Alterando CeWas Varavas: 





hhhhhs 

Sujeifco as Res traces: 


Adrionar 


Alterar 


^jdidr 


RedeftrtrTudd 


Cerregar/Salvsr 


&i£8e$ 


Metodo de Sotu^o 

SeJeoone o mecanismo QRG Nsfo linear para Probleroas do Solver suaves e nao fateares. Sefcdone o 
mecanfcmo IP ^n^ex para Probtemas do Solver Erceares. Seledone o meeanssmo Evolutionary pars 
profenas do Solver nao suaves. 


Ajuga 


Resolver 


gechar 


Figure 14.15 Solver - Maximiza^ao da somatoria do logaritmo da fun^ao de verossimilhanga para o modelo nulo. 
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Pilar 

0 

11 

13 

1 

1,82000 

-0,91822 

26 

Vivian 

4 

13 

16 

1 

1,82000 

-2,88152 

_ 27 _ 

Danielle 

0 

9 

11 

1 

1,82000 

-0,91822 


Juliana 

0 

9 

16 

1 

1,82000 

-0,91822 


101 

Estela 

6 

8 

13 

1 

1,82000 

-0.91822 

m 

103 

(somatdriaLL, -182,63662| 



Figura 14.16 Obten^ao dos parametros quando da maximiza^ao de LL pelo Solver - modelo nulo. 


Como sabemos, mesmo sendo bastante limitada a utilidade do pseudo R 2 de McFadden, softwares como o 
Stata e o SPSS o calculam e o apresentam em seus outputs, conforme veremos nas se^oes 14.4 e 14.5, respecti- 
vamente. A sua utilidade restringe-se a compara^ao de dois ou mais modelos apenas de mesma classe, ou seja, 
nao pode ser utilizado para se comparar, por exemplo, um modelo Poisson com um modelo binomial negativo. 
Alem disso, temos tambem que: 

X\ gX = -2. [-182,63662- (-151,01230)] = 63,2486 

Analogamente ao discutido na se^ao 14.2.2, para 3 graus de liberdade (numero de variaveis explicativas 
consideradas na modelagem, ou seja, numero de parametros /3), temos, por meio daTabela D do apendice do li- 
vro, que o X 2 , c ~ 7,815 (% 2 critico para 3 graus de liberdade e para o nivel de significance de 5%). Desta forma, 
como o X 2 calculado X 2 cai = 63,2486 > X 2 C = 7,815, podemos rejeitar a hipotese nula de que todos os parametros 
(3. (j = 1, 2, 3) sejam estatisticamente iguais a zero. Logo, pelo menos uma variavel X e estatisticamente signifi- 
cante para explicar a incidence de atrasos de chegada a escola mensalmente e teremos um modelo de regressao 
binomial negativo estatisticamente significante para fins de previsao. 

Softwares como o Stata e o SPSS nao oferecem o X 2 C P ara os graus de liberdade definidos e um determinado 
nivel de significance. Todavia, oferecem o nivel de significance do X 2 cai P ara estes graus de liberdade. Desta for¬ 
ma, em vez de analisarmos se X 2 ca i > % 2 C > devemos verificar se o nivel de significance do X 2 ca i 6 menor do que 0,05 
(5%) a fim de darmos continuidade a analise de regressao. Assim: 

Se valor-P (ou P-value ou Sig. X 2 cal ou Prob. X 2 ca ) < 0,05, existe pelo menos um (3. ^ 0. 

Ainda seguindo a mesma logica proposta na setpao 14.2.2, e preciso que o avaliemos tambem se cada um dos 
parametros do modelo de regressao binomial negativo e estatisticamente significante, por meio tambem da ana¬ 
lise da estatistica z de Wald. Para o nosso exemplo, temos que: 

s.e. (a) = 1,249 
s.e. (fi x ) = 0,071 
s.e. (j8 2 ) = 0,049 
s.e. (j8 3 ) = 0,257 
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Logo, com base nas equates da expressao (14.11), temos que: 


z 


a 


a 

S.e.(a) 


—4,9976 

1,249 


-4,001 


2 


A 


A 0,3077 „ _ 

—7777 = —-= 4,320 

s.e.(A) 0,071 


2 


A 


A 0,1973 

—tVt = —-= 3,984 

s.e.(A) 0,049 


2 


A 


A _ -0,9274 
i.e.(A)~ 0,257 


= -3,608 


Como todos os valores de < -1,96 ou > 1,96, os valores-P das estatisticas z de Wald < 0,05 para todos 
os parametros estimados e, portanto, ja chegamos ao modelo final de regressao binomial negativo, sem que haja 
necessidade de uma eventual aplica^ao do procedimento Stepwise . Sendo assim, a quantidade esperada de atrasos 
por mes para determinado aluno it, de fato, dada por: 

(-4,9976+0,3077. dist { +0,1973. son* -0,9274. per:) 

u { — e K 

e, desta forma, podemos retornar as perguntas propostas, respondendo uma de cada vez: 

Qual e a quantidade media esperada de atrasos no mes quando se desloca 12 quilometros e se pas- 
sa por 17 semaforos diariamente, sendo o trajeto feito a tarde? 

Com base na expressao da quantidade esperada de atrasos por mes e substituindo os valores propostos, teremos que: 

^ _ ^[-4,9976+0,3077.(12)+0,1973.(17)-0,9274.(0)] _ y 

Portanto, espera-se que determinado aluno que e submetido aos dados propostos ao se deslocar a escola apre- 
sente uma quantidade media de 7,76 atrasos por mes. 

Em media, em quanto se altera a taxa de incidencia mensal de atrasos ao se adotar um percurso 
1 quilometro mais longo, mantidas as demais condi^oes constantes? 

Fazendo uso da mesma expressao, temos que: 


e 0 ’ 3077 = 1,360 

Assim, mantidas as demais condi^oes constantes, a taxa de incidencia mensal de atrasos ao se adotar um percur¬ 
so 1 quilometro mais longo e, em media, multiplicada por um fator de 1,360, ou seja, e, em media, 36,0% maior. 

Em media, em quanto se altera a taxa de incidencia mensal de atrasos ao se passar por 1 sema- 
foro a mais no percurso ate a escola, mantidas as demais condi^oes constantes? 

Neste caso, teremos: 

e 0 ’ 1973 = 1,218 

Logo, mantidas as demais condi^oes constantes, a taxa de incidencia mensal de atrasos ao se adotar um percur¬ 
so com 1 semaforo a mais e, em media, multiplicada por um fator de 1,218, ou seja, e, em media, 21,8% maior. 

Em media, em quanto se altera a taxa de incidencia mensal de atrasos ao se optar por ir a escola 
de manha, em vez de se ir a tarde, mantidas as demais condi^oes constantes? 

Neste ultimo caso, teremos: 

—0,9274 r\ on/ 

e =0,396 

Logo, mantidas as demais condi^oes constantes, a taxa de incidencia mensal de atrasos ao se optar por ir a es¬ 
cola de manha, em vez de se ir a tarde, e, em media, multiplicada por um fator de 0,396, ou seja, e, em media, 
60,4% menor. 
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Como estes calculos utilizam as estimativas medias dos parametros, estudaremos agora os intervalos de con- 
fian^a destes parametros. 

14.3.3. Constru^ao dos intervalos de confian^a dos parametros do modelo de regressao 
binomial negativo 

Com base nos termos da expressao (14.12), podemos elaborar aTabela 14.13, que traz os coeficientes estima- 
dos dos parametros do modelo do nosso exemplo, com os respectivos erros-padrao, as estatisticas z de Wald e os 
intervalos de confian^a para o nivel de significance de 5%. 


Tabela 14.13 Calculo dos intervalos de confian^a dos parametros. 


Parametro 

Coeficiente 

Erro-Padrao 

(s.e.) 

z 

Intervalo de Confian^a (95%) 

a-l,96.[s.e.(a)] 

Pj -l,96.[s.,( Pi j\ 

a + l,96.\_s.e.(a)] 
fij + 1,96. [s.e. (/3j)] 

a (constante) 

-4,9976 

1,249 

-4,001 

-7,446 

-2,549 

/3 1 (variavel dist) 

0,3077 

0,071 

4,320 

0,168 

0,447 

P 2 (variavel sem) 

0,1973 

0,049 

3,984 

0,100 

0,294 

P 3 (variavel per) 

-0,9274 

0,257 

-3,608 

-1,431 

-0,424 


Esta tabela e igual a que obteremos quando estimarmos este modelo de regressao binomial negativo por meio 
do Stata e do SPSS (segoes 14.4 e 14.5, respectivamente). 

Com base nos intervalos de confian^a dos parametros, podemos escrever as expressoes dos limites inferior 
(mlnimo) e superior (maximo) da quantidade esperada de atrasos por mes para determinado aluno i, com 95% 
de confian^a: 

(-7,446 +0, 168 . • + 0 ,1 00. sent: - 1 , 431 . per { ) 

W. = C ’ 


(-2,549+0,447. dist: +0,294. sent: -0,424. per :) 

u. , = e x 1 

Fazendo uso da expressao (14.13), podemos elaborar aTabela 14.14, que apresenta o intervalo de confian^a 
da taxa mensal estimada de incidencia de atrasos (incidence rate ratio ou in) correspondente a altera^ae em cada 
parametro j 3. (j = 1 , 2, ..., k). 

Estes valores tambem poderao ser obtidos por meio do Stata e do SPSS, conforme mostraremos, respectiva¬ 
mente, nas se^oes 14.4 e 14.5. 

Como podemos verificar, os intervalos de confian^a dos parametros estimados nao contem o zero e, conse- 
quentemente, os das taxas esperadas de incidencia nao contem o 1, o que ja era de se esperar, dado que, conforme 


Tabela 14.14 Calculo dos intervalos de confian^a da taxa de incidencia u (irr) para cada parametro p.. 


Parametro 

Taxa de Incidencia u (irr) 

Intervalo de Confian 9 a de u (95%) 

/ 



/3 1 (variavel dist) 

1,360 

1,182 

1,564 

P 2 (variavel sem) 

1,218 

1,105 

1,342 

(variavel per) 

0,396 

0,239 

0,655 
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discutimos, < -1,96 ou > 1,96. Logo, os parametros estimados sao estatisticamente diferentes de zero ao mvel 
de confian^a de 95%. 

Partiremos agora para a estima^ao dos modelos de regressao para dados de contagem por meio dos softwares 
Stata e SPSS. 

14.4. ESTIMA^AO DE MODELOS DE REGRESSAO PARA DADOS DE CONTAGEM 
NO SOFTWARE STATA 

O objetivo desta se^ao nao e o de discutir novamente todos os conceitos inerentes as estatisticas dos modelos 
de regressao Poisson e binomial negativo, porem propiciar ao pesquisador uma oportunidade de elabora^ao dos 
mesmos exemplos explorados ao longo do capitulo por meio do Stata Statistical Software®. A reprodu^ao de suas 
imagens nesta se^ao tern autoriza^ao da StataCorp LP®. 

14.4.1. Modelo de regressao Poisson no software Stata 

Voltando ao exemplo desenvolvido na se^ao 14.2, lembremos que o nosso professor tern o interesse em ava- 
liar se a distancia percorrida, a quantidade de semaforos e o periodo do dia em que ocorre o percurso ate a es- 
cola influenciam a quantidade de atrasos semanalmente. Ja partiremos para o banco de dados final construido 
pelo professor por meio dos questionamentos elaborados ao seu grupo de 100 estudantes. O banco de dados 
encontra-se no arquivo QuantAtrasosPoisson.dta e e exatamente igual ao apresentado parcialmente por meio 
daTabela 14.2. 

Inicialmente, podemos digitar o comando desc, que faz com que seja possivel analisarmos as caracteristicas 
do banco de dados, como o numero de observances, o numero de variaveis e a descri^ao de cada uma delas. A 
Figura 14.17 apresenta este primeiro output do Stata. 


. desc 





obs: 

100 




vars: 

5 




size: 

2,500 

(99.9% of 

memory free) 



storage 

display 

value 


variable name 

type 

format 

label 

variable label 

estudante 

strll 

%lls 



atrasos 

float 

%9.0g 


quantas vezes chegou atrasado a escola na 
ultima semana? 

dist 

byte 

%8.0g 


distancia que percorre ate a escola (km) 

sem 

byte 

%8.0g 


quantidade de semaforos 

per 

float 

%9.0g 

per 

periodo do dia ! 

| Sorted by: | 


Figura 14.1 7 Describe do banco de dados QuantAtrasosPoisson.dta. 


A variavel dependente, que se refere a quantidade de atrasos (numero de ocorrencias) semanalmente ao se 
chegar a escola, e quantitativa, discreta e com valores nao negativos. Desta forma, o comando tab, que frequen- 
temente e utilizado para se obter a distribui^ao de frequences de uma variavel qualitativa, pode ser, neste caso, 
utilizado, dado que a variavel dependente apresenta valores inteiros e com poucas possibilidades de resposta. A 
Figura 14.18 apresenta a distribui^ao de frequences para os dados de contagem da variavel dependente atrasos. 

O comando a seguir oferece uma possibilidade de visualiza^ao do histograma da variavel dependente, apre¬ 
sentado na Figura 14.19.0 termo discrete informa que a variavel dependente apresenta apenas valores inteiros. 

hist atrasos, discrete freq 

Antes da elabora^ao de qualquer modelo de regressao para dados de contagem, e interessante que o pesquisa¬ 
dor avalie se a media e a variancia da variavel dependente sao iguais ou, ao menos, proximas. Isso dara uma ideia 
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Figure 14.18 Distribuigao de frequences para os dados de contagem da variavel atrasos. 



Figure 14.19 Histograma da variavel dependente atrasos. 


sobre a adequagao da estimagao do modelo de regressao Poisson, ou se sera necessaria a estimagao de um modelo 
de regressao binomial negativo. A digitagao do seguinte comando permitira que este preliminar diagnostico seja 
elaborado, cujos resultados encontram-se na Figura 14.20: 

tabstat atrasos, stats(mean var) 

Os outputs da Figura 14.20 correspondem aos apresentados naTabela 14.3 da segao 14.2.1 e, por meio da 
analise da media e da variancia, que sao muito proximas, podemos, ainda que de forma preliminar, supor que 


. tabstat atrasos, stats(mean var) 

variable | mean variance 

- + - 

atrasos | 1.03 1.059697 


Figure 14.20 Media e variancia da variavel dependente atrasos. 
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a estima^ao de um modelo de regressao Poisson seja adequada neste caso. E importante ressaltar que, quan- 
do a variavel dependente apresentar dados de contagem, a estima^ao de um modelo de regressao Poisson 
devera sempre ser elaborada inicialmente, a fim de que, a partir da mesma, possa ser aplicado um teste para 
verifica^ao de existencia de superdispersao. Caso ocorra superdispersao nos dados, al sim o pesquisador po- 
dera recorrer a estima^ao de um modelo de regressao binomial negativo, em detrimento da estima^ao do 
modelo Poisson. 

Vamos, entao, a estima^ao do modelo de regressao Poisson. Para tanto, devemos digitar o seguinte comando: 

poisson atrasos dist sem per 

O comando poisson elabora um modelo de regressao Poisson estimado por maxima verossimilhan^a. Assim 
como para os modelos de regressao multipla e de regressao logistica binaria e multinomial, se o pesquisador nao 
informar o nivel de confian^a desejado para a defini^ao dos intervalos dos parametros estimados, o padrao sera 
de 95%. Entretanto, se o pesquisador desejar alterar o nivel de confian^a dos intervalos dos parametros para, por 
exemplo, 90%, devera digitar o seguinte comando: 

poisson atrasos dist sem per, level(90) 

Iremos seguir com a analise mantendo o nivel padrao de confian^a dos intervalos dos parametros, que e de 
95%. Os resultados encontram-se na Figura 14.21 e sao exatamente iguais aos calculados na se$ao 14.2. 

Como os modelos de regressao Poisson fazem parte do grupo de modelos conhecidos por Modelos Lineares 
Generalizados (Generalized Linear Models ), e como estamos supondo, neste momento, que a variavel depen¬ 
dente apresenta uma distribui^ao Poisson, ja que o teste para verifica^ao de existencia de superdispersao nos da¬ 
dos ainda sera elaborado, os resultados da estima^ao apresentados na Figura 14.21 tambem podem igualmente ser 
obtidos por meio da digita^ao do seguinte comando: 

glm atrasos dist sem per, family(poisson) 


1 . poisson atrasos dist sem per 




Iteration 0: 

log likelihood = -107.79072 




Iteration 1: 

log likelihood = -107.61523 




Iteration 2: 

log likelihood = -107.61498 




Iteration 3: 

log likelihood = -107.61498 




1 Poisson regression 

Number 

of obs = 

100 



LR chi2(3) 

51.01 



Prob > 

chi2 = 

0.0000 

Log likelihood 

= -107.61498 

Pseudo 

R2 

0.1916 

atrasos | 

Coef. Std. Err. z 

P>|z| 

[95% Conf. 

Interval] 

dist | 

.2221224 .0658737 3.37 

0.001 

.0930122 

.3512325 

sem | 

.1646107 .0458251 3.59 

0.000 

.0747952 

.2544262 

per | 

-.5731352 .261911 -2.19 

0.029 

-1.086471 

-.059799 

_cons | 

-4.379926 1.160234 -3.78 

0.000 

-6.653943 

-2.10591 

11 i. 


Figura 14.21 Outputs do modelo de regressao Poisson no Stata. 


Inicialmente, podemos verificar que mostram, respectivamente, a janela o valor maximo do logaritmo da fun- 
$ao de verossimilhan^a para o modelo completo e igual a -107,61498, que e exatamente igual ao valor calculado 
por meio do Solver do Excel (se$ao 14.2.1) e apresentado naTabela 14.5 e na Figura 14.6. Caso o pesquisador 
queira obter o valor maximo do logaritmo da fun^ao de verossimilhan^a para o modelo nulo, devera digitar o 
seguinte comando, cujos resultados encontram-se na Figura 14.22: 

poisson atrasos 
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. poisson atrasos 

Iteration 0: log likelihood = -133.12228 

Iteration 1: log likelihood = -133.12228 

Poisson regression Number of obs = 100 

LR chi2(0) = 0.00 

Prob > chi2 = 

Log likelihood = -133.12228 Pseudo R2 = 0.0000 


atrasos | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

_cons | 

.0295588 

.0985329 

0.30 

0.764 

-.1635622 

.2226798 


Figura 14.22 Outputs do modelo de regressao Poisson nulo no Stata. 


Logo, o valor maximo do logaritmo da fun^ao de verossimilhanga para o modelo nulo e igual a -133,12228, 
que e exatamente igual ao valor tambem calculado pelo Solver do Excel e apresentado na Figura 14.8. 

Assim, fazendo uso da expressao (14.10), temos que: 

xl g .i = -2.[-133,12228 - (-107,61498)] = 51,01 comvalor - P (on Prob.zh) = 0,000. 

Logo, com base no teste j£ 2 , podemos rejeitar a hipotese nula de que todos os parametros /3 (j = 1,2,3) sejam 
estatisticamente iguais a zero ao nivel de significancia de 5%, ou seja,pelo menos uma variavel X e estatisticamen- 
te significante para explicar o numero de atrasos que ocorre semanalmente ao se chegar a escola. 

Embora o pseudo R 2 de McFadden, conforme discutido, apresente bastante limita^ao em rela^ao a sua inter- 
preta^ao, o Stata o calcula, com base na expressao (14.9), exatamente como fizemos na se^ao 14.2.2. 

r2 _ -2. (-133.12228)-[(-2.(-107,61498))] _ 

-2.(-133,12228) 

Em rela^ao a significancia estatistica dos parametros do modelo apresentado na Figura 14.21, como todos os 
valores de < -1,96 ou > 1,96, os valores-P das estatisticas £ de Wald < 0,05 para todos os parametros estima- 
dos e, portanto, ja chegamos ao modelo final de regressao Poisson, sem que haja a necessidade de uma eventual 
aplica^ao do procedimento Stepwise. Se este nao tivesse sido o caso, seria recomendavel a estima^ao do modelo 
final por meio do seguinte comando: 

stepwise, pr(0.05): poisson atrasos dist sem per 

ou do equivalente: 

stepwise, pr(0.05): glm atrasos dist sem per, family(poisson) 


que, para este nosso exemplo, geram exatamente os me$mos resultados apresentados na Figura 14.21. 
Logo, a quantidade media estimada de atrasos por semana para determinado aluno i e dada por: 


_ ^(-4,380+0,222.^ f +0,165.5em ( -0,573.p«;) 


que, a exce^ao de pequenos arredondamentos, e exatamente o mesmo modelo estimado na se^ao 14.2. Alem 
disso, tambem com base na Figura 14.21, as quantidades estimadas de atrasos por semana apresentam, com 95% 
de nivel de confian^a, expressoes de minimo e de maximo iguais a: 


_ ^(-6,654+0,093. distj+0 ,075.5cm,.-1,086. per { ) 




(~ 2 

o x 


,106+0,351.^.+0,254.5em,-0,060. 


P*i) 
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Apos a estima^ao do modelo de regressao Poisson, precisamos elaborar o teste para verifica^ao de existencia 
de superdispersao nos dados. Para tanto, seguiremos o mesmo procedimento estudado na se^ao 14.2.4. 

Inicialmente, devemos gerar uma variavel correspondente aos valores previstos de ocorrencia de atrasos se- 
manais por aluno, que chamaremos de lambda. Esta variavel devera ser gerada exatamente apos a estima^ao do 
modelo final, por meio da digita^ao do seguinte comando: 

predict lambda 


Na sequencia, com base na expressao (14.14), reescrita a seguir, devemos criar uma nova variavel no banco de 
dados, que chamaremos de yasterisco , de acordo como segue: 


— lambda .) — atrasos. 


yasterisco i = 

lambda { 

gen yasterisco = ((atrasos-lambda) A 2 - atrasos)/lambda 


Por fim, devemos estimar o modelo auxiliar de regressao simples yasterisco. = (3.lambda i , de acordo com a 
expressao (14.15), por meio da digita^ao do seguinte comando: 

reg yasterisco lambda, nocons 

Os resultados deste procedimento encontram-se na Figura 14.23, e correspondem aos apresentados na Figura 14.10. 

Cameron e Trivedi (1990) salientam que, se ocorrer o fenomeno da superdispersao nos dados, o parametro 
/3 estimado por meio do modelo de regressao auxiliar sera estatisticamente diferente de zero, ao nivel definido 
de significance de 5%. Como o valor-P do teste t correspondente ao parametro /3 da variavel lambda e maior 
do que 0,05,podemos afirmar que os dados da variavel dependente nao apresentam superdispersao, fazendo 
com que o modelo de regressao Poisson estimado seja adequado pela presen^a de equidispersao nos dados. 
Seguiremos, portanto, com o modelo final de regressao Poisson estimado. 


. predict lambda 

(option n assumed; predicted number of events) 

. gen yasterisco = ((atrasos-lambda) A 2 - atrasos)/lambda 
. reg yasterisco lambda, nocons 


Source 

1 

ss 

df 

MS 


Number of obs 
F( 1, 99) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 100 
= 3.39 

= 0.0684 

= 0.0332 

= 0.0234 

= 2.1072 

Model 

Residual 

I 

1 

15.0749658 

439.607992 

1 

99 

15.0749658 

4.44048476 


Total 

1 

454.682957 

100 

4.54682957 


yasterisco 

1 

.X- 

Coef. 

Std. 

Err. t 

P>|t| 

[95% Conf. 

Interval ] 

lambda 

T 

1 

-.2917561 

.158346 -1.84 

0.068 

-.6059489 

.0224366 


Figura 14.23 Resultado do teste para verifica^ao de existencia de superdispersao no Stata. 


O comando prcounts, a ser digitado apos a estima^ao do modelo final completo elaborado por meio do co¬ 
mando poisson, permite que sejam criadas variaveis correspondentes as probabilidades de ocorrencia de cada 
uma das possibilidades de atraso (de 0 a 9 atrasos), para cada observa^ao. Caso o comando prcounts nao esteja 
instalado no Stata, o pesquisador devera digitar f indit prcounts e instala-lo no pacote estatistico. 

Vamos, entao, digitar o seguinte comando: 

prcounts prpoisson, plot 
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f ' 



- Observed Pr(y=k) from poisson -•- Predicted Pr(y=k) from poisson 


V_7 

Figura 14.24 Distribuigoes de probabilidades observadas e previstas de ocorrencia de 0 a 9 atrasos. 


Alem disso, sao tambem geradas duas variaveis que correspondent respectivamente, as probabilidades obser¬ 
vadas e previstas de ocorrencia de 0 a 9 atrasos para toda a amostra {prpoissonobeq e prpoissonpreq ). Note que a va- 
riavel prpoissonobeq apresenta, obviamente, a mesma distribuigao de probabilidades apresentada na Figura 14.18. 
Por fim, a variavel prpoissonval apresenta os proprios valores de 0 a 9 que serao relacionados com as probabilida¬ 
des observadas e previstas. O comando a seguir permite que sejam comparadas, visualmente, as distribuigoes de 
probabilidades observadas e previstas de ocorrencia de 0 a 9 atrasos: 

graph twoway (scatter prpoissonobeq prpoissonpreq prpoissonval, connect (1 1)) 

O grafico resultante encontra-se na Figura 14.24. 

Desta forma, para que seja verificada a qualidade do ajuste do modelo final estimado, de forma analoga ao 
teste de Hosmer-Lemeshow utilizado quando da estimagao de modelos de regressao logistica binaria, podemos 
elaborar um teste ^ para comparar as duas curvas apresentadas na Figura 14.24. Assim, apos a estimagao do mo¬ 
delo final, devemos digitar: 

poisgof 

O resultado, que se encontra na Figura 14.25, indica a existencia de qualidade do ajuste do modelo final de 
regressao Poisson, ou seja, nao existem diferengas estatisticamente significantes entre os valores previstos e obser- 
vados do numero de atrasos que ocorrem semanalmente. 


. poisgof 

Goodness-of-fit chi2 = 67.71699 

_Prob > chi2 (96)_= 0.9873 


Figura 14.25 Verificagao da qualidade do ajuste do modelo de regressao Poisson estimado. 
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Desta forma, podemos retornar a primeira pergunta proposta ao final da se^ao 14.2.1: 

Qual e a quantidade media esperada de atrasos na semana quando se desloca 12 quildmetros 
e se passa por 17 semaforos diariamente, sendo o trajeto feito a tarde? 

O comando mfx permite que o pesquisador responda esta pergunta diretamente. Assim, devemos digitar o 
seguinte comando: 

mfx, at(dist=12 sem=17 per=0) 

Assim como ja haviamos calculado manualmente na se^ao 14.2.2, espera-se, portanto, que determinado aluno 
que e submetido a estas caracteristicas ao se deslocar para a escola apresente, em media, uma quantidade de 2,95 
atrasos por semana (Figura 14.26). 


. mfx, at(dist=12 sem=17 per=0) 


Marginal effects after poisson 

y = Predicted number of events (predict) 
= 2.9562577 


variable | 

dy/dx 

Std. Err. 

z 

P>|z| 

[ 95% C.I. ] 

X 

dist | 

.6566509 

.21773 

3.02 

0.003 

.229916 1.08339 

12 

sem | 

.4866317 

.16407 

2.97 

0.003 

.165058 .808205 

17 

per*| • 

-1.289652 

.63928 

-2.02 

0.044 

-2.54262 -.036687 

0 

(*) dy/dx is 

for discrete 

change of dummy variable 

from 0 to 1 



Figura 14.26 Calculo da quantidade esperada de atrasos semanais para 
valores das variaveis explicativas - comando mfx. 


Caso haja a inten^ao de se obter diretamente as estimativas das taxas de incidencia semanal de atrasos quando se 
altera em uma unidade determinada variavel explicativa, mantidas as demais condi^oes constantes, pode ser digitado 
o seguinte comando: 

poisson atrasos dist sem per, irr 

em que o termo irr significa incidence rate ratio e, para o nosso exemplo, oferece a taxa estimada de incidencia 
de atrasos por semana correspondente a altera^ao em cada parametro /3 (j — 1, 2,3). Os resultados, apresentados 
na Figura 14.27, tambem poderiam ser obtidos por meio do seguinte comando: 

glm atrasos dist sem per, family(poisson) eform 

em que o termo eform do comando glm equivale ao termo irr do comando poisson. 


1 . poisson atrasos dist sem 

per, irr 




Iteration 0: 

log likelihood = -107.79072 




Iteration 1: 

log likelihood = -107.61523 




Iteration 2: 

log likelihood = -107.61498 




Iteration 3: 

log likelihood = -107.61498 




I Poisson regression 


Number 

of obs = 

100 




LR chi2(3) 

51.01 




Prob > 

II 

CM 

•H 

0.0000 

Log likelihood 

= -107.61498 


Pseudo 

R2 = 

0.1916 

atrasos | 

IRR 

Std. Err. z 

P>|z| 

[95% Conf. 

Interval] 

dist | 

1.248724 

.0822581 3.37 

0.001 

1.097475 

1.420818 

I sem | 

1.178934 

.0540247 3.59 

0.000 

1.077663 

1.289721 

per | 

.5637552 

.1476537 -2.19 

0.029 

.337405 

.9419538 

B . 


Figura 14.27 Outputs do modelo de regressao Poisson - incidence rate ratios . 





















Modelos de Regressao para Dados de Contagem: Poisson e Binomial Negativo 731 

Sendo assim, podemos retornar as tres ultimas perguntas propostas ao final da se^ao 14.2.1: 

Em media, em quanto se altera a taxa de incidencia semanal de atrasos ao se adotar um percur- 
so 1 quilometro mais longo, mantidas as demais condi^oes constantes? 

Em media, em quanto se altera a taxa de incidencia semanal de atrasos ao se passar por 1 sema- 
foro a mais no percurso ate a escola, mantidas as demais condi^oes constantes? 

Em media, em quanto se altera a taxa de incidencia semanal de atrasos ao se optar por ir a es¬ 
cola de manha, em vez de se ir a tarde, mantidas as demais condi^oes constantes? 

As respostas agora podem ser dadas de maneira direta, ou seja, enquanto a taxa de incidencia semanal de 
atrasos ao se adotar um percurso 1 quilometro mais longo e, em media e mantidas as demais condi^oes constan¬ 
tes, multiplicada por um fator de 1,249 (24,9% maior), a taxa de incidencia semanal de atrasos ao se adotar um 
percurso com 1 semaforo a mais e, em media e tambem mantidas as demais condi^oes constantes, multiplicada 
por um fator de 1,179 (17,9% maior). Por fim, a taxa de incidencia semanal de atrasos ao se optar por ir a escola 
de manha, em vez de se ir a tarde, e, em media, multiplicada por um fator de 0,564 (43,6% menor), mantidas 
as demais condi^oes constantes. Estes valores sao exatamente os mesmos daqueles calculados manualmente ao 
final da se^ao 14.2.2. 

Um pesquisador mais curioso pode inclusive elaborar um grafico para estudar, por exemplo, o comportamen- 
to da evolu^ao da quantidade semanal prevista de atrasos em fun^ao da distancia que e percorrida ate a escola. 
Para tanto, pode ser digitado o seguinte comando: 

graph twoway scatter lambda dist | | mspline lambda dist 

Por meio do grafico elaborado e apresentado na Figura 14.28 e possivel claramente perceber que distancias 
maiores percorridas para se chegar a escola levam a um aumento da quantidade esperada de atrasos por semana, 
com taxa media de incremento de 24,9% de atrasos a cada 1 quilometro adicional. 


( >> 



• Predicted number of events - Median spline 


V_ J 


Figura 14.28 Quantidade esperada de atrasos por semana ( lambda ) x distancia percorrida (dist). 
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Entretanto, caso se deseje elaborar o mesmo grafico, porem estratificando os comportamentos de evolu^ao 
da quantidade semanal prevista de atrasos para trajetos realizados de manha ou a tarde, deve-se digitar o seguinte 
comando: 

graph twoway scatter lambda dist if per==0 || scatter lambda dist 
if per==l || mspline lambda dist if per==0 || mspline lambda dist 
if per==l II, legend(label(3 "tarde”) label(4 "manha")) 

O novo grafico gerado encontra-se na Figura 14.29. 





o 

Predicted number of events 

• 

Predicted number of events 


“ tarde 


— manha 


v_ J 

Figura 14.29 Quantidade esperada de atrasos por semana ( lambda ) x distancia percorrida {dist) 

em diferentes periodos do dia (per). 


Por meio deste grafico e possivel verificar que os trajetos para se chegar a escola realizados no perfodo da tarde 
apresentam maiores distancias, em media. Enquanto a quantidade esperada de atrasos por semana para os percur- 
sos realizados de manha nao apresenta media superior ale nao ultrapassa o valor de 2, a quantidade esperada de 
atrasos por semana para os percursos realizados a tarde e, portanto, que tern maiores distancias, apresenta media 
em tor no de 3, com valor minimo ficando proximo de 2. 

Por fim, podemos desejar comparar os resultados do modelo de regressao Poisson estimado por maxima veros- 
similhan^a com aqueles obtidos por um eventual modelo de regressao multipla log-linear estimado pelo metodo 
de minimos quadrados ordinarios (ordinary least squares, ou OLS ). Para tanto, vamos inicialmente gerar uma variavel 
chamada de Inatrasos, que corresponde ao logaritmo natural da variavel dependente atrasos, por meio do seguinte co¬ 
mando: 

gen lnatrasos=ln(atrasos) 

Na sequencia, vamos estimar o modelo In atrasos { = a + j3 v dist i + P 2 .sem i + P 3 -per { por OLS, da seguinte 
forma: 


quietly reg Inatrasos dist sem per 
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O termo quietly indica que os outputs nao serao apresentados, porem os parametros serao estimados. A fim 
de obtermos os valores previstos da variavel dependente por meio da estima^ao OLS, devemos digitar: 

predict yhat 

gen eyhat = exp(yhat) 

em que a variavel eyhat corresponde aos valores previstos, para cada observa^ao, da quantidade de atrasos por se- 
mana para um modelo de regressao multipla log-linear estimado por OLS. 

O grafico apresentado na Figura 14.30 oferece uma oportunidade de verifica^ao, por meio de ajustes lineares, 
das diferen^as dos valores previstos em fun^ao dos valores reais da variavel dependente para cada uma das esti¬ 
mates elaboradas (modelo de regressao Poisson estimado por maxima verossimilhan^a e modelo de regressao 
multipla log-linear estimado por OLS). O comando para elabora^ao deste grafico e: 

graph twoway lfit lambda atrasos || lfit eyhat atrasos ||, 
legend(label(1 "Poisson”) label(2 "OLS")) 



Figura 14.30 Valores previstos x valores observados para os modelos de regressao Poisson 
e de regressao multipla log-linear {OLS). 

O grafico da Figura 14.30 nos mostra que o fato de determinada variavel dependente ser quantitativa nao e 
condi^ao suficiente para que seja elaborado um modelo de regressao multipla com estima^ao OLS, cujos para¬ 
metros podem ser diferentes e viesados em rela^ao aqueles obtidos por um modelo de regressao Poisson estimado 
por maxima verossimilhan^a. O pesquisador precisa investigar o comportamento da distribui^ao e a natureza da 
variavel dependente de seu estudo, a fim de que seja estimado o modelo mais adequado e consistente para efeitos 
de diagnostico da base de dados e para efeitos de previsao. 

14.4.2. Modelo de regressao binomial negativo no software Stata 

Voltando agora ao exemplo da se^ao 14.3, o professor passa a ter interesse em avaliar se a distancia percorrida, 
a quantidade de semaforos e o perfodo do dia em que se da o trajeto ate a escola sao variaveis estatisticamente sig- 
nificantes para explicar a quantidade de atrasos por mes a que estao sujeitos os seus 100 alunos. O banco de dados 
encontra-se agora no arquivo QuantAtrasosBNeg.dta e e exatamente igual ao apresentado parcialmente por 
meio daTabela 14.10. 
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Ao digitarmos o comando desc, podemos analisar as caracteristicas do banco de dados, como o numero de 
observances, o numero de variaveis e a descri£ao de cada uma delas. A Figura 14.31 apresenta esta descrinao. 

Na sequencia, seguindo a logica apresentada na se^ao 14.4.1, vamos inicialmente analisar a distribui£ao da va¬ 
riavel dependente neste novo exemplo, solicitando ao Stata que seja elaborada uma tabela com a distribui^ao de 
frequencias e o correspondente histograma. Os comandos sao: 

tab atrasos 

hist atrasos, discrete freq 


. desc 





obs: 

100 




vars: 

5 




size: 

2,500 

(99.9% of 

memory free) 



storage 

display 

value 


variable name 

type 

format 

label 

variable label 

estudante 

strll 

%lls 



atrasos 

float 

%9.0g 


quantas vezes chegou atrasado a escola no 
ultimo mes? 

dist 

byte 

%8.0g 


distancia que percorre ate a escola (km) 

sem 

byte 

%8.0g 


quantidade de semaforos 

per 

float 

%9.0g 

per 

periodo do dia 

| Sorted by: f 


Figura 14.31 Descri^ao do banco de dados QuantAtrasosBNeg.dta. 


Enquanto a Figura 14.32 apresenta a tabela com a distribui^ao de frequencias da variavel dependente atrasos , 
a Figura 14.33 traz o histograma desta variavel. 

E importante verificar que a cauda mais longa deste histograma em compara^ao com aquele apresentado na 
Figura 14.19 e decorrente do fato de que, no presente estudo, a variavel dependente contempla dados mensais de 
contagem, em vez de dados semanais. Esta cauda mais longa pode ser um primeiro indicio de existericia de su- 
perdispersao nos dados e, desta forma, faz-se necessario calcular a media e a variancia desta variavel dependente. 
Para tanto, devemos digitar o seguinte comando, cujos resultados encontram-se na Figura 14.34: 

tabstat atrasos, stats(mean var) 



Figura 14.32 Distribui^ao de frequencias para os dados de contagem da variavel atrasos. 
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Figura 14.33 Histograma da variavel dependente atrasos. 


. tabstat atrasos, stats(mean var) 

variable | mean variance 

- + - 

atrasos | 1.82 5.421818 


Figura 14.34 Media e variancia da variavel dependente atrasos . 


Conforme podemos verificar, a variancia da variavel dependente e aproximadamente 3 vezes maior do que a 
sua media, o que faz com que suijam indicios de existencia de superdispersao. 

Recomenda-se que toda modelagem em que a variavel dependente contem dados de contagem seja ini- 
ciada por meio da estima^ao de um modelo de regressao Poisson. Desta forma, vamos digitar os seguintes co- 
mandos: 

quietly poisson atrasos dist sem per 
predict lambda 

em que lambda e uma variavel que corresponde aos valores previstos de ocorrencia de atrasos mensalmente e e 
calculada com base na estima^ao do modelo de regressao Poisson. 

Desta forma, partiremos inicialmente para a aplica^ao do teste proposto por Cameron eTrivedi (1990) para 
verifica^ao de existencia de superdispersao nos dados da variavel dependente, com base na expressao (14.14) e 
seguindo o procedimento j a elaborado na se^ao 14.4.1. Assim, devemos digitar: 

gen yasterisco = ((atrasos-lambda) A 2 - atrasos)/lambda 
reg yasterisco lambda, nocons 

Os resultados deste procedimento encontram-se na Figura 14.35. 
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. quietly poisson atrasos dist sem per 
. predict lambda 

(option n assumed; predicted number of events) 

. gen yasterisco = ((atrasos-lambda)*2 - atrasos)/lambda 
. reg yasterisco lambda, nocons 


Source 

1 

SS 

df 

MS 


Number of obs 
F ( 1, 99) 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 100 
= 4.57 

= 0.0349 

= 0.0442 

Model 

Residual 

1 

1 

12.8608941 

278.374591 

1 

99 

12.8608941 

2.81186456 


Total 

1 

291.235486 

100 

2.91235486 


= 1.6769 

yasterisco 

1 

Coef. 

Std. 

Err. t 

P>|t| 

[95% Conf. 

Interval] 

lambda 

1 

.1332397 

.062301 2.14 

0.035 

.0096209 

.2568584 


Figura 14.35 Resultado do teste para verifica^ao de existencia de superdispersao no Stata. 


Como o parametro ft da variavel lambda estimado por meio do modelo de regressao auxiliar apresentado 
na Figura 14.35 e, ao mvel de significance de 5%, estatisticamente diferente de zero, podemos concluir que 
os dados da variavel dependente apresentam superdispersao, fazendo com que o modelo de regressao 
Poisson estimado nao seja adequado. Mais adiante teremos mais uma comprova^ao deste fato ao estimarmos a 
propria expressao da variancia da variavel dependente. 

O teste X 2 P ara comparar as distributes de probabilidades observadas e previstas de ocorrencia de atrasos 
mensais tambem indica a inexistencia de qualidade do ajuste do modelo de regressao Poisson, ou seja, existem 
diferen^as estatisticamente significantes entre os valores previstos e observados do numero de atrasos que ocor- 
rem mensalmente. O comando para a realiza^ao deste teste, que deve ser digitado apos a estima^ao elaborada por 
meio do comando poisson, e: 

poisgof 

O resultado deste teste encontra-se na Figura 14.36. 


. poisgof 

Goodness-of-fit chi2 = 145.2954 

_Prob > chi2 (96)_= 0.0009 


Figura 14.36 Verifica<;ao da qualidade do ajuste do modelo de regressao Poisson estimado. 


Portanto, partiremos para a estima^ao de um modelo de regressao binomial negativo. O comando para a 
estima^ao deste modelo, para este exemplo, e: 

nbreg atrasos dist sem per 

O comando nbreg elabora um modelo de regressao binomial negativo NB2 estimado por maxima 
verossimilhan^a (negative binomial 2 regression model), ou seja, considera uma especifica^ao quadratica para a 
variancia, conforme discutido quando da apresenta^ao da expressao (14.27). Assim como para os modelos de re¬ 
gressao multipla, de regressao logistica binaria e multinomial e de regressao Poisson, se o pesquisador nao infor- 
mar o mvel de confian^a desejado para a defini^ao dos intervalos dos parametros estimados, o padrao sera de 95%. 
Entretanto, se o pesquisador desejar alterar o nivel de confian^a dos intervalos dos parametros para, por exemplo, 
90%, devera digitar o seguinte comando: 

nbreg atrasos dist sem per, level(90) 
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Iremos seguir com a analise mantendo o nivel padrao de confian^a dos intervalos dos parametros, que e 
de 95%. Os resultados da estima^ao encontram-se na Figura 14.37 e sao exatamente iguais aos calculados na 
se^ao 14.3. 

Assim como os modelos de regressao Poisson, os modelos de regressao binomial negativo tambem fazem par¬ 
te do grupo de modelos conhecidos por Modelos Lineares Generalizados (Generalized Linear Models), e 
como estamos supondo que a variavel dependente apresenta uma distribui^ao Poisson-Gama pelo fato de apre- 
sentar superdispersao nos dados, os resultados da estimagao apresentados na Figura 14.37 tambem podem igual- 
mente ser obtidos por meio da digitagao do seguinte comando: 

glm atrasos dist sem per, family(nbinomial ml) 

em que o termo ml significa maximum likelihood . 


. nbreg atrasos dist sem per 
Fitting Poisson model: 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 


log likelihood 
log likelihood 
log likelihood 
log likelihood 


-160.97008 

-154.89761 

-154.89376 

-154.89376 


Fitting constant-only model: 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 


log likelihood 
log likelihood 
log likelihood 
log likelihood 


-183.37156 

-182.64329 

-182.63662 

-182.63662 


Fitting full model: 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 
Iteration 4 
Iteration 5 
Iteration 6 
Iteration 7 
Iteration 8 


log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 


-164.81888 

-163.03629 

-156.38042 (not concave) 
-155.02033 
-151.41164 
-151.31538 
-151.01444 
-151.0123 
-151.0123 


Negative binomial regression 


Number of obs 
LR chi2(3) 


100 

63.25 


Dispersion 


= mean 



Prob > 

chi2 = 

0.0000 

Log likelihood 

= -151.0123 



Pseudo 

R2 

0.1732 

atrasos 

1 

Coef. 

Std. Err. 



[95% Conf. 

Interval] 

dist 

1 

.3076544 

.0712522 

4.32 

0.000 

.1680026 

.4473061 

sem 

1 

.1973366 

.0495291 

3.98 

0.000 

.1002612 

.2944119 

per 

1 

-.9274356 

.257023 

-3.61 

0.000 

-1.431191 

-.4236797 

_cons 

1 

-4.997447 

1.249431 

o 

o 

i 

0.000 

-7.446287 

-2.548607 

/lnalpha 

1 

.X. 

-1.365232 

.5276507 



-2.399408 

-.3310552 

alpha 

T 

1 

.2553215 

.1347206 



.0907717 

.7181655 


Likelihood-ratio test of alpha=0: chibar2(01) = 7.76 Prob>=chibar2 = 0.003 


Figura 14.37 Outputs do modelo de regressao binomial negativo no Stata. 


Inicialmente, podemos verificar que o valor maximo do logaritmo da fun^ao de verossimilhan^a para o mo¬ 
delo completo e igual a -151,0123, que e exatamente igual ao valor calculado por meio do Solver do Excel 
(segao 14.3.1) e apresentado naTabela 14.12 e na Figura 14.14. Caso o pesquisador deseje tambem obter o va¬ 
lor maximo do logaritmo da fun^ao de verossimilhan^a para o modelo nulo, devera digitar o seguinte comando, 
cujos resultados encontram-se na Figura 14.38: 

nbreg atrasos 
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. nbreg atrasos 

Fitting Poisson model: 

Iteration 0: log likelihood 
Iteration 1: log likelihood 

Fitting constant-only model: 


-223.36096 

-223.36096 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 


log likelihood 
log likelihood 
log likelihood 
log likelihood 


-183.37156 

-182.64329 

-182.63662 

-182.63662 


Fitting full model: 

Iteration 0: log likelihood = 
Iteration 1: log likelihood = 

Negative binomial regression 

Dispersion = mean 

Log likelihood = -182.63662 


-182.63662 

-182.63662 


Number of obs 
LR chi2(0) 
Prob > chi2 
Pseudo R2 


100 

0.00 

0.0000 


atrasos 

1 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

_cons 

1 

.5988365 

.137895 

4.34 

0.000 

.3285673 

.8691057 

/Inalpha 

1 

.3016238 

.2430113 



-.1746697 

.7779172 

alpha 

1 

1.352052 

.3285641 



.8397343 

2.176933 

Likelihood-ratio 

test of alpha=0: chibar2(01) 

= 81.45 

Prob>=chibar2 = 0.000 


Figura 14.38 Outputs do modelo de regressao binomial negativo nulo no Stata. 


Logo, o valor maximo do logaritmo da fun^ao de verossimilhan^a para o modelo nulo e igual a -182,63662, 
que e exatamente igual ao valor tambem calculado pelo Solver do Excel e apresentado na Figura 14.16. 

Assim, fazendo uso da expressao (14.10), temos que: 

Xl g] = -2.[-182,63662 -(-151,01230)] = 63,25 com valor - P{ouVrob.X 2 cal) = 0,000. 


Logo, com base no teste X 2 > podemos rejeitar a hipotese nula de que todos os parametros /3 (j = 1, 2, 3) sejam 
estatisticamente; iguais a zero ao mvel de significance de 5%, ou seja,pelo menos uma variavel X e estatisticamen- 
te significante para explicar o numero de atrasos que ocorre mensalmente ao se chegar a escola. 

Tambem podemos calcular o pseudo R 2 de McFadden, como fizemos na se^ao 14.4.1, sempre lembrando, 
porem, que sua utilidade e bastante limitada e restringe-se a compara^ao de dois ou mais modelos de mesma clas- 
se, ou seja, nao pode ser utilizado para se comparar, por exemplo, um modelo Poisson com um modelo binomial 
negativo. Assim, com base na expressao (14.9), temos que: 


pseudo R 


2 


-2.(-182,63662)- (-2.(-151,01230))! 

----—-- - 11 = 0,1732 

-2.(-182,63662) 


Em rela^ao a significance estatistica dos parametros do modelo apresentado na Figura 14.37, como todos os 
valores de z ul < -1,96 ou > 1,96, os valores-P das estatisticas ^ de Wald < 0,05 para todos os parametros estima- 
dos e, portanto, ja chegamos ao modelo final de regressao binomial negativo, sem que haja necessidade de uma 
eventual aplica^ao do procedimento Stepwise. Se este nao tivesse sido o caso, seria recomendavel a estima^ao do 
modelo final por meio de um dos seguintes comandos: 

stepwise, pr(0.05): nbreg atrasos dist sem per 

stepwise, pr(0.05): glm atrasos dist sem per, family(nbinomial ml) 


que, para este nosso exemplo, geram exatamente os mesmos resultados apresentados na Figura 14.37. 
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Apos a estima^ao do modelo final de regressao binomial negativo, podemos gerar uma variavel corresponden- 
te aos valores previstos de ocorrencia de atrasos mensais por aluno, que chamaremos de u. Esta variavel devera ser 
gerada exatamente apos a estima^ao do modelo final, por meio da digita^ao do seguinte comando: 

predict u 

A expressao da quantidade media estimada de atrasos por mes para um determinado aluno i sera dada, portanto,por: 

(-4,997+0,308.<ftst-+0,197. sem- -0,927. per.) 

u. = e K ' 

que, a exce^ao de pequenos arredondamentos, e exatamente o mesmo modelo estimado na se^ao 14.3. Alem 
disso, tambem com base na Figura 14.37, as quantidades estimadas de atrasos por mes apresentam, com 95% de 
nivel de confian£a, expressoes de minirno e de maximo iguais a: 

(-7,446+0,168.dis£+0, 100.sem -1,431. per { ) 

u. = e K ' 

_ (-2,549+0,447. dist; +0,294. sem i -0,424. per { ) 

VI- — C 

w 

Alem disso, a parte inferior da Figura 14.37 apresenta o output correspondente a estimapao de 0, que e o in- 
verso do parametro de forma If/ da distribui^ao binomial negativa e que o Stata chama de alpha. Conforme po¬ 
demos observar, o intervalo de confian^a para 0 (alpha) nao contem o zero, ou seja, para o nivel de confian^a de 
95%, podemos afirmar que 0 e estatisticamente diferente de zero e com valor estimado igual a 0,255, conforme 
ja calculado na se^ao 14.3.1 por meio do Solver do Excel (Figura 14.14). Os outputs da Figura 14.37 ainda apre¬ 
sentam o teste de razao de verossimilhan^a para o parametro 0 (alpha), de onde se pode concluir que a hipotese 
nula de que este parametro seja estatisticamente igual a zero pode ser rejeitada ao nivel de significancia de 5% 
(Sig. X 2 = 0,003 < 0,05). Isso comprova a existencia de superdispersao nos dados, ficando a variancia da 
variavel dependente, de acordo com a expressao (14.27), com a seguinte especifica^ao: 

Var(Y ) = u + 0,255.w 2 

O comando glm apresenta diretamente esta expressao de variancia em seus outputs, conforme mostra a 
Figura 14.39, que equivale a Figura 14.37. 

glm atrasos dist sem per 7 family(nbinomial ml) 


1 . glm atrasos dist sem per, family(nbinomial ml) 




Iteration 0 : 

log likelihood = -151. 

49946 




Iteration 1: 

log likelihood = -151. 

01314 




Iteration 2: 

log likelihood = -151 

.0123 




Iteration 3: 

log likelihood = -151 

.0123 




I Generalized linear models 


No. of 

obs = 

100 

Optimization 

: ML 


Residual df = 

96 




Scale 

parameter = 

1 

Deviance 

= 105.0249438 


(1/ df ) 

Deviance - 

1.09401 

Pearson 

= 104.7027564 


(1/df) 

Pearson = 

1.090654 

I Variance function: V(u) = u+(.2553)u A 

2 

[Neg. 

Binomial] 


Link function 

: g (u) = In (u) 


[Log] 






AIC 

= 

3.100246 

Log likelihood 

= -151.0122975 


BIC 

= 

-337.0714 

1 

OIM 





atrasos | 

Coef. Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

dist | 

.3076544 .0680481 

4.52 

0.000 

.1742826 

.4410261 

sem | 

.1973366 .0481042 

4.10 

0.000 

.103054 

.2916191 

i per | 

-.9274356 .2568699 

-3.61 

0.000 

-1.430891 

-.42398 

_cons | 

-4.997447 1.17835 

-4.24 

0.000 

-7.306971 

-2.687923 

11 - - « 


Figura 14.39 Outputs do modelo de regressao binomial negativo no Stata - comando glm. 
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Se um pesquisador mais curioso estimar um modelo de regressao binomial negativo no banco de dados uti- 
lizado na se^ao 14.4.1 (Quant AtrasosPoisson. dta), verificara que (j) (alpha) sera estatisticamente igual a zero, o 
que ja era de se esperar, visto que o teste para verifica^ao de existencia de superdispersao nao rejeitou a hipotese 
nula de equidispersao para aquele caso (Figura 14.23). Em outras palavras, a estimagao de um modelo de regres¬ 
sao Poisson para aquele banco de dados foi adequada, fato que nao acontece neste nosso exemplo atual. 

Desta forma, como 0^0, faz sentido continuarmos com a analise dos resultados obtidos pela estima^ao do 
modelo de regressao binomial negativo e, portanto, retornaremos a primeira pergunta proposta ao final da se- 
$ao 14.3.1 e respondida na se^ao 14.3.2: 

Qual e a quantidade media esperada de atrasos no mes quando se desloca 12 quilometros e se 
passa por 17 semaforos diariamente, sendo o trajeto feito a tarde? 

Para responder a esta pergunta, vamos novamente utilizar o comando mfx, digitando o seguinte: 

mfx, at(dist=12 sem=17 per=0) 

Com base na Figura 14.40, e conforme ja calculado manualmente na segao 14.3.2, espera-se, portanto, que 
determinado aluno que e submetido a estas caracteristicas ao se deslocar a escola apresente, em media, uma quan¬ 
tidade de 7,76 atrasos por mes. 


. mfx, at(dist=12 sem=17 per=0) 


Marginal effects after nbreg 

y = Predicted number of events (predict) 
= 7.7611249 


variable | 

dy/dx 

Std. Err. 

z 

P>|z| 

[ 95% 

C.I. ] 

X 

dist | 

2.387744 

.79926 

2.99 

0.003 

.821228 

3.95426 

12 

sem | 

1.531554 

.54557 

2.81 

0.005 

.462264 

2.60084 

17 

per* | 

-4.691082 

1.65951 

-2.83 

0.005 

-7.94366 

-1.4385 

0 

(*) dy/dx is for discrete change of dummy variable 

from 0 to 

1 



Figura 14.40 Calculo da quantidade esperada de atrasos mensais 
para valores das variaveis explicativas - comando mfx. 


Analogamente ao elaborado para os modelos de regressao Poisson, podemos tambem aqui obter diretamente 
as estimativas das taxas de incidencia mensal de atrasos quando se altera em uma unidade determinada variavel 
explicativa, mantidas as demais condi^oes constantes. Desta forma, para o nosso modelo de regressao binomial 
negativo, podemos digitar: 

nbreg atrasos dist sem per, irr 

Os resultados, apresentados na Figura 14.41, tambem poderiam ser obtidos por meio do seguinte comando: 

glm atrasos dist sem per, family(nbinomial ml) eform 

em que, neste caso, o termo eform do comando glm equivale ao termo irr do comando nbreg. 

Desta maneira, podemos retornar as tres ultimas perguntas propostas ao final da se^ao 14.3.1: 

Em media, em quanto se altera a taxa de incidencia mensal de atrasos ao se adotar um percurso 
1 quilometro mais longo, mantidas as demais condi^oes constantes? 

Em media, em quanto se altera a taxa de incidencia mensal de atrasos ao se passar por 1 sema- 
foro a mais no percurso ate a escola, mantidas as demais condi^oes constantes? 

Em media, em quanto se altera a taxa de incidencia mensal de atrasos ao se optar por ir a escola 
de manha, em vez de se ir a tarde, mantidas as demais condi£oes constantes? 

As respostas agora podem ser dadas de maneira direta, ou seja, enquanto a taxa de incidencia mensal de atra¬ 
sos ao se adotar um percurso 1 quilometro mais longo e, em media e mantidas as demais condi^oes constan¬ 
tes, multiplicada por um fator de 1,360 (36,0% maior), a taxa de incidencia mensal de atrasos ao se adotar um 
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. nbreg atrasos dist sem per, irr 
Fitting Poisson model: 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 


log likelihood 
log likelihood 
log likelihood 
log likelihood 


-160.97008 

-154.89761 

-154.89376 

-154.89376 


Fitting constant-only model: 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 


log likelihood 
log likelihood 
log likelihood 
log likelihood 


-183.37156 

-182.64329 

-182.63662 

-182.63662 


Fitting full model: 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 
Iteration 4 
Iteration 5 
Iteration 6 
Iteration 7 
Iteration 8 


log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 


-164.81888 

-163.03629 

-156.38042 (not concave) 
-155.02033 
-151.41164 
-151.31538 
-151.01444 
-151.0123 
-151.0123 


Negative binomial regression 

Dispersion = mean 

Log likelihood = -151.0123 


Number of obs = 

LR chi2(3) 

Prob > chi2 = 

Pseudo R2 = 

100 

63.25 

0.0000 

0.1732 

atrasos 

1 

IRR 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

dist 

1 

1.360231 

.0969194 

4.32 

0.000 

1.18294 

1.564093 

sem 

1 

1.218154 

.0603341 

3.98 

0.000 

1.10546 

1.342337 

per 

1 

.3955668 

.1016698 

-3.61 

0.000 

.239024 

.6546335 

/lnalpha 

1 

-1.365232 

.5276507 



-2.399408 

-.3310552 

alpha 

1 

.2553215 

.1347206 



.0907717 

.7181655 


Likelihood-ratio test of alpha=0: chibar2(01) = 7.76 Prob>=chibar2 = 0.003 


Figura 14.41 Outputs do modelo de regressao binomial negativo - incidence rate ratios. 


percurso com 1 semaforo a mais e, em media e tambem mantidas as demais condi^oes constantes, multiplicada 
por um fator de 1,218 (21,8% maior). Por fim, a taxa de incidencia mensal de atrasos ao se optar por ir a escola 
de manha, em vez de se ir a tarde, e, em media, multiplicada por um fator de 0,396 (60,4% menor), mantidas as 
demais condi^oes constantes. Estes valores sao exatamente os mesmos daqueles calculados manualmente ao final 
da se^ao 14.3.2. 

Imagine, portanto, que tenhamos o interesse de, por exemplo, visualizar, por meio de um grafico, o corn- 
portamento da evolu^ao da quantidade mensal prevista de atrasos em fun^ao da quantidade existente de se¬ 
maforos no percurso ate a escola, porem separando os trajetos realizados de manha ou a tarde. Para tanto, 
podemos digitar o seguinte comando: 

graph twoway scatter u sem if per==0 || scatter u sem if per==l 
|| mspline u sem if per==0 || mspline u sem if per==l ||, 
legend(label(3 "tarde") label(4 "manha")) 

O grafico gerado encontra-se na Figura 14.42. 

Por meio deste grafico e possivel verificar que os trajetos para se chegar a escola realizados no periodo da tar¬ 
de possuem quantidades maiores de semaforos, em media, provavelmente porque os estudantes que se deslocam 
ate a escola no periodo vespertino partem de locais mais distantes. Enquanto a quantidade esperada de atrasos 
por mes para os percursos realizados de manha nao apresenta media superior a 1,5 e nao ultrapassa o valor de 4, 
a quantidade esperada de atrasos por mes para os percursos realizados a tarde e, portanto, que apresentam maiores 
quantidades de semaforos, apresenta media em torno de 8, com valor minimo ficando proximo de 4. 
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h- t- 1 - 1 - 1 - 1 -r 

10 12 14 16 18 20 22 

quantidade de semaforos 


o 

Predicted number of events 

• 

Predicted number of events 


“ tarde 


- manha 


Figura 14.42 Quantidade esperada de atrasos por mes ( u) x quantidade de semaforos ( sem ) 

em diferentes periodos do dia {per). 


De maneira global, e possivel claramente perceber que percursos com uma quantidade maior de semaforos 
levam a um aumento da quantidade esperada de atrasos por mes, com taxa media de incremento de 21,8% de 
atrasos a cada 1 semaforo adicional. 

Por fim, vamos comparar as estimates dos modelos de regressao Poisson e binomial negativo elaboradas para 
este nosso exemplo. Primeiramente, a fim de que possamos comparar as distributes de probabilidades observa- 
das e previstas de ocorrencia de atrasos mensais para estas duas estimates, devemos digitar a seguinte sequencia 
de comandos, que gerara o grafico da Figura 14.43: 

quietly poisson atrasos dist sem per 
prcounts prpoisson, plot 
quietly nbreg atrasos dist sem per 
prcounts prbneg, plot 

graph twoway (scatter prbnegobeq prbnegpreq prpoissonpreq 
prbnegval, connect (1 1 1)) 

Por meio da analise deste grafico, podemos verificar que a distribui^ao estimada (prevista) de probabilidades 
do modelo binomial negativo se ajusta melhor a distribui^ao observada (pontos mais proximos) do que a distri- 
bui^ao estimada de probabilidades do modelo Poisson. 

Este fato tambem pode ser verificado quando se aplica o comando countfit, que oferece os valores destas 
probabilidades previstas para cada contagem da variavel dependente. Assim, podemos digitar a seguinte sequen¬ 
cia de comandos: 

countfit atrasos dist sem per, prm nograph noestimates nofit 
countfit atrasos dist sem per, nbreg nograph noestimates nofit 
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♦ - Observed Pr{y=k) 

-#■—- Predicted Pr(y=k)from nbreg 

—. Predicted Pr(y=k) from poisson 

v___ ) 

Figura 14.43 Distributees de probabilidades observadas e previstas de ocorrencia de atrasos 
mensais para os modelos de regressao Poisson e binomial negativo. 


em que o termo prm refere-se ao modelo Poisson e o termo nbreg, ao modelo binomial negativo (NB2). Os 
outputs encontram-se na Figura 14.44. 

As colunas Actual e Predicted dos outputs da Figura 14.44 referem-se, respectivamente, as probabilidades 
observadas e previstas para cada um dos modelos estimados e, por meio delas, tambem poderia ter sido obtido o 
grafico da Figura 14.43. 

Podemos verificar que o ajuste do modelo de regressao binomial negativo e melhor do que o ajuste do 
modelo de regressao Poisson. Isso pode inicialmente ja ser percebido pela analise da diferen^a maxima entre as 
probabilidades observadas e previstas que, enquanto para o modelo Poisson, e de 0,105, para o modelo binomial 
negativo e, em modulo, igual a 0,056. Alem disso, a media destas diferen^as e de 0,036 para o modelo Poisson 
e de 0,022 para o modelo binomial negativo. Enquanto os valores da coluna | Dif f | correspondem a estas di- 
feren^as em modulo para cada contagem da variavel dependente (de 0 a 9), os valores da coluna Pearson, se- 
gundo Cameron eTrivedi (2009), representam um bom indicador do ajuste do modelo e sao calculados com 
base na seguinte expressao: 


Pearson = N. 


(Diff) 2 

Predicted 


(14.31) 


em que Neo tamanho da amostra. Conforme tambem podemos verificar por meio da analise destes mesmos 
outputs (Figura 14.44), o valor total de Pearson e mais baixo para o modelo de regressao binomial negativo, in¬ 
die ando o seu melhor ajuste em rela^ao ao modelo de regressao Poisson. 

Alem disso, podemos elaborar um grafico que relaciona as quantidades previstas com as quantidades observadas 
de atrasos mensais para cada observa^ao da amostra, para os modelos de regressao Poisson e binomial negativo es¬ 
timados para o banco de dados deste exemplo. E importante lembrarmos que, enquanto a variavel u corresponde 
aos valores previstos de ocorrencia de atrasos mensais por aluno obtidos pelo modelo binomial negativo, a variavel 
lambda corresponde a estes valores previstos pelo modelo Poisson. Assim, devemos digitar o seguinte comando, a 
fim de que seja gerado o grafico da Figura 14.45: 

graph twoway mspline u atrasos || mspline lambda atrasos ||, 
legend(label(1 "Binomial Negativo") label(2 "Poisson")) 
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|| . countfit atrasos 

dist sem 

per 

, prm nograph noestimates nofit || 

1 Comparison of Mean 

Observed 

and 

Predicted Count j| 


Maximum At 

Mean 


Model 

Difference Value 

IDiff| 


PRM 

0.105 

0 


0.036 


PRM: 

Predicted and 

actual probabilities 


Count 

Actual Predicted 


|Diff| 

Pearson 

0 

0.410 

0.305 


0.105 

3.632 

1 

0.200 

0.287 


0.087 

2.651 

2 

0.110 

0.175 


0.065 

2.410 

3 

0.070 

0.093 


0.023 

0.564 

4 

0.060 

0.049 


0.011 

0.242 

5 

0.070 

0.028 


0.042 

6.516 

6 

0.030 

0.017 


0.013 

1.028 

7 

0.020 

0.011 


0.009 

0.706 

8 

0.010 

0.008 


0.002 

0.054 | 

9 

0.000 

0.006 


0.006 

0.604 

Sum 

0.980 

0.979 


0.364 

18.408 

| . countfit atrasos 

dist sem 

per 

nbreg nograph noestimates nofit 

1 Comparison of Mean 

Observed 

and 

Predicted Count 


Maximum At 

Mean 


Model 

Difference Value 

|Diff| 


NBRM 

-0.056 

1 


0.022 


NBRM: 

Predicted and actual probabilities 


Count 

Actual Predicted 

IDiff| 

Pearson 

0 

0.410 

0.369 


0.041 

0.451 

1 

0.200 

0.256 


0.056 

1.234 

2 

0.110 

0.143 


0.033 

0.756 

3 

0.070 

0.079 


0.009 

0.105 

4 

0.060 

0.046 


0.014 

0.426 

5 

0.070 

0.028 


0.042 

6.085 

6 

0.030 

0.019 


0.011 

0.704 

7 

0.020 

0.013 


0.007 

0.416 

8 

0.010 

0.009 


0.001 

0.009 

9 

0.000 

0.007 


0.007 

0.671 

Sum 

0.980 

0.969 


0.221 

10.858 


Figura 14.44 Probabilidades observadas e previstas para cada contagem 
da variavel dependente e respectivos termos de erro. 


Esta figura mostra que a variancia da quantidade prevista de atrasos mensais e bem superior para o caso do 
modelo de regressao binomial negativo, cuja estima^ao consegue capturar a existencia de superdispersao nos 
dados. Para o exemplo utilizado na se^ao 14.4.1, caso tivessemos elaborado este mesmo grafico, resultante das 
estimates do modelo de regressao Poisson e do modelo de regressao binomial negativo, as duas curvas se- 
riam exatamente iguais (superpostas), o que demonstra, mais uma vez, que a estima^ao do modelo de regressao 
Poisson, naquele caso, foi adequada, ao contrario da presente situa^ao, em que prevalece a estima^ao do modelo 
de regressao binomial negativo. 

Por fim, assim como fizemos ao final da se^ao 14.4.1, podemos desejar comparar os resultados do modelo de 
regressao binomial negativo estimado por minima verossimilhan^a com os resultados obtidos por outras estimates 
como, no caso, aqueles obtidos pelo modelo de regressao Poisson tambem estimado por maxima verossimilhan^a e 
os obtidos por um eventual modelo de regressao multipla log-linear estimado por minimos quadrados ordinarios 
(<ordinary least squares , ou OLS ). Para tanto, vamos inicialmente gerar uma variavel chamada de Inatrasos , que corres- 
ponde ao logaritmo natural da variavel dependente atrasos, por meio da digita^ao do seguinte comando: 


gen lnatrasos=ln(atrasos) 
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Figura 14.45 Quantidade prevista x quantidade real de atrasos mensais 
para os modelos binomial negativo e Poisson. 


Na sequencia, vamos estimar o modelo In atrasos { = Ct + fi 1 Jist i + f3 2 .sem i + fi 3 -P er i por OLS, gerando no ban¬ 
co de dados uma variavel correspondente aos valores previstos, para cada observa^ao, da quantidade de atrasos 
mensais (variavel eyhat), por meio da digita^ao da seguinte sequencia de comandos: 

quietly reg lnatrasos dist sem per 

predict yhat 

gen eyhat = exp(yhat) 

O grafico apresentado na Figura 14.46 oferece uma oportunidade de verifica^ao, por meio de ajustes lineares, 
das diferen^as dos valores previstos em fun^ao dos valores reais da variavel dependente entre as estimates ela- 
boradas (modelos de regressao binomial negativo e Poisson estimados por maxima verossimilhan^a e modelo de 
regressao multipla log-linear estimado por OLS). O comando para elabora^ao deste grafico e: 

graph twoway lfit u atrasos || lfit lambda atrasos || 

Ifit eyhat atrasos ||, legend(label(1 "Binomial Negativo") 
label(2 "Poisson") label(3 "OLS")) 

Este grafico nos mostra que o modelo binomial negativo estimado acabou por gerar valores previstos mais 
similares aos valores reais da variavel dependente, visto que seu ajuste linear e consistentemente mais proximo de 
uma reta imaginaria com inclina^ao de 45°, principalmente para valores mais elevados de Y Os modelos de re¬ 
gressao Poisson e log-linear, por outro lado, geraram estimativas viesadas dos parametros em rela£ao ao modelo de 
regressao binomial negativo, o que demonstra que e fundamental que o pesquisador elabore diagnosticos prelimi- 
nares sobre o comportamento da distribui^ao e a natureza da variavel dependente antes da estima^ao de deter- 
minado modelo de regressao. Enquanto a presen^a de uma variavel dependente quantitativa nao garante a qua- 
lidade do ajuste de um modelo de regressao multipla estimado por OLS, uma variavel dependente quantitativa 
que contem dados de contagem tambem nao garante a qualidade do ajuste de um modelo de regressao Poisson. 

A capacidade do Stata para a elabora^ao dos mais diversos tipos de modelos e enorme, porem acreditamos 
que o que foi exposto aqui e considerado obrigatorio para pesquisadores que tenham a inten^ao de estimar, de 
forma correta, os modelos de regressao para dados de contagem. 

Partiremos agora para a resolu^ao dos mesmos exemplos por meio do SPSS. 
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quantas vezes chegou atrasado a escola no ultimo mes? 


Binomial Negativo 

- Poisson 

.OLS 



v_/ 

Figura 14.46 Valores previstos x valores observados para os modelos de regressao 
binomial negativo, Poisson e log-linear ( OLS ). 


14.5. ESTIMA^AO DE MODELOS DE REGRESSAO PARA DADOS DE CONTAGEM 
NO SOFTWARE SPSS 

Apresentaremos agora o passo a passo para a elabora^o dos nossos exemplos por meio do IBM SPSS 
Statistics Software®. A reprodu^ao de suas imagens nesta se^ao tern autoriza^ao da International Business 
Machines Corporation®. 

Assim como realizado nos capitulos anteriores, nosso objetivo nao e apresentar novamente os conceitos ine- 
rentes as tecnicas, nem tampouco repetir aquilo que ja foi explorado nas se^oes anteriores. O maior objetivo 
desta se^ao e o de propiciar ao pesquisador uma oportunidade de estimar os modelos de regressao para dados 
de contagem no SPSS, dada a facilidade de manuseio e a didatica com que o software realiza as suas operates e 
se coloca perante o usuario. A cada apresenta^ao de um output , faremos men^ao ao respectivo resultado obtido 
quando da elabora^ao das tecnicas por meio do Excel e do Stata, a fim de que o pesquisador possa compara-los 
e, desta forma, possa decidir qual software utilizar, em fun^ao das caracteristicas de cada um e da propria acessi- 
bilidade para uso. 

14.5.1. Modelo de regressao Poisson no software SPSS 

Seguindo a mesma logica proposta quando da aplica^ao dos modelos por meio do software Stata, ja parti- 
remos para o banco de dados construido pelo professor a partir dos questionamentos feitos a cada um de seus 
100 estudantes. Os dados encontram-se no arquivo QuantAtrasosPoisson.sav e, apos o abrirmos, vamos ini- 
cialmente clicar em Analyze —> Descriptive Statistics —> Frequencies..., a fim de elaborarmos o primeiro 
diagnostico sobre a distribui^ao da variavel dependente. A caixa de dialogo da Figura 14.47 sera aberta. 

Conforme mostra esta figura, devemos inserir a variavel dependente atrasos (quantas vezes chegou atrasado a 
escola na ultima semana?) em Variable(s). No botao Statistics..., devemos marcar as opgoes Mean e Variance, 
conforme mostra a Figura 14.48. 

Ao clicarmos em Continue, voltaremos a caixa de dialogo anterior. No botao Charts..., marcaremos a op- 
£ao Histograms, conforme mostra a Figura 14.49. 
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Vanatafe(s)! 


esiudante 

$ distancia que percorre... 
$ quantidade de semafor... 


$ quantas vezes chegou... 

periodo do dia [par] 

* 

j 


Misties... 




Charts.. 


Format*. 




Bootstrap... 


[$? Display frequency tables 

| OK j 1 Paste [ Reset | [cancel [ HetpT^ 


Figura 14.47 Caixa de dialogo para elabora^ao da tabela de frequences da variavel dependente. 


^ Frequencies: Statistics 


,rPercenti!e Values- 



Cg points for '0 equal groups 
j: O Percentiles): 



"Dispersion 

O Std. deviation Q Minimum 
(Vi Variance Q Maximum 
Q S.E. mean 


•Centra! Tendency'' 

H Mean 
ITj Median 
Q Mode 

D aim 


LJ Values are group midpoints 
rDistribution-’““‘“ 

Q Skewness 

Q Kurtosis | 




Figura 14.48 Sele^ao para calculo da media e da variancia da variavel dependente. 


Na sequencia, devemos clicar em Continue e em OK. Os outputs encontram-se na Figura 14.50. 

Estes outputs sao os mesmos daqueles apresentados na Tabela 14.3 e na Figura 14.3 da se^ao 14.2.1 e tambem 
nas Figuras 14.18,14.19 e 14.20 da se^ao 14.4.1 e, por meio deles, podemos verificar, ainda que de forma preli- 
minar, que ha indicios de inexistencia de superdispersao nos dados, uma vez que a media e a variancia sao muito 
proximas. Partiremos, portanto, para a estima^ao de um modelo de regressao Poisson, e, a partir de seus resultados, 
iremos elaborar o teste para verifica^ao de existencia de superdispersao. 
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Frequencies: Charts 


rChart Type 



©Ndne 
© Bar charts 
© Pie charts 
@5 Histograms: j 

□ Show normal curve on histogram 


•Chart Values- -—— ——— 

® Fr © P^certtasee 


Lcgpcell [.Jjefct 


Figura 14.49 Caixa de dialogo para elabora^ao do histograma da variavel dependente. 


Statistics 


quantas vezes cheqou 
atrasado a escola na ultima 
semana? 


N Valid 

100 

Missing 

0 

Mean 

1,03 

Variance 

1,060 


quantas vezes chegou atrasado a escola na ultima semana? 



Frequency 

Percent 

Valid Percent 

Cumulative 

Percent 

Valid 0 

37 

37,0 

37,0 

37,0 

1 

35 

35,0 

35,0 

72,0 

2 

18 

18,0 

18,0 

90,0 

3 

0 

8,0 

8,0 

98,0 

4 

2 

2,0 

2,0 

100,0 

Total 

100 

100,0 

100,0 



Histogram 



quantas vezes chegou atrasado a escola na 
ultima semana? 


Figura 14.50 Media, variancia, tabela de frequences e histograma da variavel dependente. 
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Assim sendo, vamos clicar em Analyze —» Generalized Linear Models —» Generalized Linear Models..., 

Uma caixa de dialogo sera aberta e devemos marcar, na pasta Type of Model, a opgao Poisson loglinear (em 
Counts), conforme mostra a Figura 14.51. 


Generalized Linear Models 


r - 


Type of Model Response PrecSctors Model j Estimation Statistics EM Means | Save [ Export 


Choose one of the mode! types listed below or specify a custom combination of distribution and fink function. 


$ Scale Response ~' 
©Unear 

© Gamma with log link 

MB Counts . 


© Negative binomial with log link 


Mixture 

©Tweedie with Jog link 
© Tweedie with identity link 


^Custom 

©Custom 


Distribution: 

rP&$sn$ter ——— 


W Specify 
V@!m©: T 

© EMe vaStte 


rfS Ordinal Response — — 

© Ordinal logistic 
© Ordinal probit 

G# Binary Respond or Evertsffrials Data 
©Binary logistic 
© Binary probit 
© Interval censored survival 


CM function: ffe{gru&/ 
Power. ! 


[ 0:< ] ? Paste (Reset )[oiincd|fHdp^l 


Figura 14.51 Caixa de dialogo inicial para estimagao do modelo Poisson no SPSS. 


E importante ressaltar que o pesquisador pode fazer uso desta mesma caixa de dialogo caso deseje estimar, por 
exemplo, um modelo de regressao multipla ou um modelo de regressao logistica, visto que estes tambem corn- 
poem os chamados Modelos Lineares Generalizados. 

Na pasta Response, devemos incluir a variavel atrasos na caixa Dependent Variable, conforme mostra a 
Figura 14.52. 

Enquanto na pasta Predictors devemos incluir as variaveis dist, sem e per na caixa Covariates, na pasta Model 
devemos inserir estas mesmas tres variaveis na caixa Model, conforme mostram, respectivamente, as Figuras 14.53 
e 14.54. 

Na pasta Statistics, alem das opgoes ja selecionadas de forma padrao pelo SPSS, devemos marcar tambem a 
opgao Include exponential parameter estimates, conforme mostra a Figura 14.55. 

Por fim, conforme mostra a Figura 14.56, marcaremos, na pasta Save, apenas a primeira opgao, ou seja, 
Predicted value of mean response, que criara no banco de dados uma variavel correspondente a A (quanti- 
dade prevista de atrasos semanais por aluno). 

Na sequencia, devemos clicar em OK. A Figura 14.57 apresenta os principais outputs da estimagao. 

O primeiro output da estimagao (Goodness of Fit) apresenta o valor da somatoria do logaritmo da fungao de 
maxima verossimilhanga da estimagao proposta (Log Likelihood ), que e de -107,615 e e exatamente igual ao valor 
obtido quando da modelagem no Excel (Tabela 14.5 e Figura 14.6) e no Stata (Figuras 14.21 e 14.27). Por meio 
do mesmo output podemos tambem verificar que a qualidade do ajuste do modelo estimado e adequada, visto que, 
para um = 67,717 (o SPSS chama de Deviance ), temos, para 96 graus de liberdade, que Sig. > 0,05, ou seja, 



































Modelos de Regressao para Dados de Contagem: Poisson e Binomial Negativo 751 



Figura 14.54 Caixa de dialogo para inclusao das variaveis explicativas na estimagao do modelo. 
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¥l§ Generalized Linear Models 


Type of Model 

Response 

Predators 

Model 

Estimation | 


I EM Means 


Save) 


Export 


[ Save llttemtoSave 

Variable Name or Root Name 

Icategories to Save 

® ’Predicted value of mean of response 

MeanPrecficted 


0 Lower bound of confidence Interval for mean of response 

3MeanPredicfedLower 


□ .Upper bound of confidence interval for mean of response 

3MeanPredictedUpper 


0 Predicted category 

^redictedValue 


0 Predicted value of linear predictor 

KBPredicted 


0 Estimated standard error of predicted value of linear predictor 

<8S1andardError 


0 Cook's distance 

CooksDistance 


0 Leverage value 

average 


0 Residual 

Residual 


EC 

Pearson residual j 

3 earsonResidual 


□ 

Standardized Pearson residual 1 

StdPearsonResidual 


□J 

Deviance residual 1 

3evianceResidual 


□ 

Standardized deviance residual j 

StdDevianceResidual 


q h 

L&efihood residua! 1 

.ikelihoodResidual 




(-Existing Variable with Same Name- 

<§) Add suffix to name of new variable (appfies only to default names) 

© Replace existing variable (appfies to both default and user-provided names) 

-5 A If you provide your own variable names, make sure that they do not conflict with existing variables in the active dataset. 
Select the Replace Existing Variable option rf you want to overwrite existing variables wfth the same user-provided name. 




( OK |[ Paste ][Reset )[Cancel )f~Heip~ 


Figura 14.56 Caixa de dialogo para cria<;ao da variavel A. referente ao numero previsto de atrasos semanais por aluno. 


nao existem diferen^as estatisticamente significantes entre os valores previstos e observados do numero de atrasos 
que ocorrem semanalmente. Esta parte do output corresponde ao apresentado na Figura 14.25 quando da estima^ao 
do modelo pelo Stata. 

Podemos tambem verificar, com base no teste X 2 ( Likelihood Ratio Chi-Square = 51,015, Sig. X 2 = 0,000 < 0,05 
apresentado no output Omnibus Test), que a hipotese nula de que todos os parametros /3 (j = 1, 2, 3) sejam 
estatisticamente iguais a zero pode ser rejeitada ao nivel de significance de 5%, ou seja, pelo menos uma variavel 
X e estatisticamente significante para explicar a ocorrencia de atrasos por semana. 

Os parametros estimados encontram-se no output Parameter Estimates e sao exatamente iguais aos calculados 
manualmente e apresentados na Figura 14.6 (Excel) e tambem obtidos por meio do comando poisson do Stata 
(Figura 14.21). Este mesmo output tambem apresenta as incidence rate ratios (ou irr) de cada variavel explicativa, que o 
SPSS chama de Exp(B), conforme tambem ja apresentado por meio da Figura 14.27. Como todos os intervalos 
de confian^a dos parametros estimados (95% Wald Confidence Interval) nao contem o zero e, consequentemente, os 
de Exp(B) nao contem o l,ja chegamos ao modelo final de regressao Poisson (todos os Sig. Wald Chi-Square < 0,05). 

Portanto, a expressao da quantidade media estimada de atrasos por semana para um determinado aluno i po¬ 
de ser escrita como: 


^ _ ^(-4,380+0,222.^+0,165.5^,-0,573.^) 


com expressoes de minimo e maximo, a 95% de nivel de confian^a, iguais a: 

^ ^(-6,654+0,093. disf,+0 ,075.sem i -1,086. per ;) 


^ _ ^(- 2 , 106 + 0 , 351 .^ 5 f,+ 0 , 254 . 5 em,- 0 , 060 .per ( ) 
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Goodness of Fit** 



Value 

df 

Vaiue/df 

Deviance 

67,717 

96 

,705 

Scaled Deviance 

67,717 

96 


Pearson Chi-Square 

73,643 

96 

,761 

Scaled Pearson Chi- 
Square 

73,043 

96 


Log Likelihood 5 

-167,615 



Akaike’s Information 
Criterion (AIC) 

223,230 



Finite Sample Corrected 

AIC (AiOC) 

223,651 



Bayesian Information 
Criterion (BIC) 

233,651 



Consistent AtC (CAIC) 

237,651 




Dependent Variable: quantas vezes chegou atrasado 3 
escola na ultima semana? 

Model: (Intercept), dist, sem, per 


a. The full log likelihood lUnction is displayed and used in 
computing information criteria. 

b. Information criteria are in small-is-better form. 


Omnibus Test 5 * 


Likelihood 
Ratio Chi- 
Square 

df 

Sig. 

51,015 

3 

,000 


Dependent Variable: quantas 
vezes chegou atrasado d escola 
na Ultima semana? 

Model: (Intercept), dist, sem, per 

a. Compares the fitted model 
against the intercept-only model. 


Parameter Estimates 





95% Wald Confidence Interval 

Hypothesis Test 



95% Wald Confidence Interval 
for E*p(B) 

Parameter 



tower 

Upper 

Wald Chl- 
Square 

df 

Sig. 

Exp(B) 

Lower 

Upper 

(Intercept) 

*4,380 

1,1602 

-6,654 

-2,106 

14,251 

1 

,000 

,013 

,001 

,122 

diet 

.222 

,0659 

,093 

,351 

11,370 

1 

,001 

1,249 

1,097 

1,421 

sem 

,165 

,0458 

,075 

,254 

12,904 

1 

,000 

1,179 

1,078 

1,290 

per 

(Scale) 

-573 

1* 

,2619 

-1,086 

-,060 

4,789 

1 

,029 

,564 

,337 

,942 


Dependent Variable: quantas v&m s chegou atrasado a escola na ultima semana? 
Model: (intercept), dist, sem, per 

a. Fixed at the displayed value. 


Figura 14.57 Outputs do modelo de regressao Poisson no SPSS. 


Apos a estima^ao do modelo de regressao Poisson, precisamos elaborar o teste para verifica^ao de existencia 
de superdispersao nos dados. Para tanto, seguiremos o mesmo procedimento estudado nas se^oes 14.2.4 e 14.4.1. 
Assim, vamos inicialmente criar uma nova variavel, que chamaremos de yasterisco. Para tanto, em Transform —> 
Compute Variable..., devemos proceder como mostra a Figura 14.58. Note que a expressao a ser digitada na 
caixa Numeric Expression refere-se a expressao (14.14) e, no SPSS, o duplo asterisco corresponde ao operador 
expoente. A variavel MeanPredicted , gerada no banco de dados apos a estima^ao do modelo, refere-se a quantidade 
prevista de atrasos semanais para cada aluno (A,). 


















754 Manual de Analise de Dados: Estatistica e Modelagem Multivariada com Excel®, SPSS® e Stata' 


Compote Variable 


Target Variable: 


jyasterisco 


Type a Label.. J 


0a estudante 

$ cjuantas vexes chegou.. 


^ quantidade de semafor.. 
<£) perrodo do dia [per] 

$ Predicted Value of Me... 
^ yasterisco 


Numeric Expression: 




(optional case selection condition) 


Function group: _ 

AH 

Arithmetic 

CDF & Noncentral CDF 
Conversion 
Current Date/Time 
Date Arithmetic 

Ifis&figsSieD_ 


Functions and Special Variables: 


Figura 14.58 Cria^ao da variavel yasterisco para elaboragao do teste para verifica^ao 
de existencia de superdispersao nos dados. 


Apos clicarmos em OK, a nova variavel yasterisco surgira na base de dados. Devemos agora regredi-la em 
fun^ao da variavel MeanPredicted , de acordo com a expressao (14.15). Para tanto, vamos clicar em Analyze 
—> Regression —» Linear..., e inserir a variavel yasterisco na caixa Dependent e a variavel MeanPredicted em 
Independent(s), conforme mostra a Figura 14.59. 

No botao Options..., devemos desmarcar a op^ao Include constant in equation, conforme mostra a 
Figura 14.60. Na sequencia, podemos clicar em Continue e em OK. 

O output que nos interessa encontra-se na Figura 14.61. 

Como o valor-P ( Sig .) do teste t correspondente ao parametro /3 da variavel MeanPredicted (Predicted Value of 
Mean of Response) e maior do que 0,05, podemos afirmar que os dados da variavel dependente nao apresen- 
tam superdispersao ao nivel de significance de 5%, fazendo com que o modelo de regressao Poisson estimado 
seja adequado pela presen£a de equidispersao nos dados. O output da Figura 14.61 equivale aos outputs das 
Figuras 14.10 (Excel) e 14.23 (Stata). 

Na sequencia, assim como realizado na se^ao 14.4.1, vamos comparar os resultados do modelo de regres¬ 
sao Poisson estimado por maxima verossimilhan^a com aqueles obtidos por um modelo de regressao multipla 
log-linear estimado pelo metodo de minimos quadrados ordinarios ( ordinary least squares, ou OLS). Para tanto, 
vamos inicialmente gerar a variavel Inatrasos, que corresponde ao logaritmo natural da variavel dependente atrasos, 
clicando em Transform —» Compute Variable..., conforme mostra a Figura 14.62. 

Desta forma, o modelo In atrasos { = a + (5 v dist { 4- p 2 .sem i + P 3 .per { pode ser estimado por OLS. Para tanto, 
vamos clicar em Analyze —> Regression —» Linear..., e inserir a variavel Inatrasos na caixa Dependent e as 
variaveis dist, sem e per na caixa Independent(s), conforme mostra a Figura 14.63. 
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Linear Regression 


[< 7 A estudante _ j 

^ quantas vezes chegou... 
$ distancia que percorre... 


<£> periods do die (per J 
$ Predicted Value of Me... 


Dependent: 


J^aUsitcsIj 


-Stock 1 of 1- 

( --- 

i. 




fndependent(s): 


$ Predicted Value of Mean of Res... 


Method: Biter 



Options.., 


Selection Variable: 


Case Labels: 

^ F..... 


WLS Weight; 


f OK ] Ppaste 1 fResei ] n^ncSl [ help. 1 

> , 11 'M # k ****^*^*,^ 


Figura 14.59 Regressao auxiliar para elaboragao do teste para verificagao de existencia de superdispersao nos dados. 


i§, Linear Regression: Options 



-Stepping Method Criteria' 

| © Use probability of F 


Entry: t 05 

] Re ffi° V8t .1° 

©UseFvaSue 

Bfry: f$js 4 

; R@mm§k 2J1 ; 


Li Include constant in equation 

rMissfng Values- . - — ~™*—g 

I i 

| © Exclude cases listwlse 
G Exclude cases pairwise 
l © Replace with mean 

j^Cor^inue j ppafic^"j f.Help 


Figura 14.60 Exclusao da constante para a elaboragao da regressao auxiliar. 


Coefficients 3 ^ 


Model 

Unstandardized Coefficients 

Standardized 

Coefficients 

t 

Big, 

B 

Sid. Error 

Beta 

1 Predicted Value of Mean 

of Response 

-.292 

,158 

-.182 

-1,843 

,068 


a. Dependent Variable: yasterisco 

b. Linear Regression through the Origin 


Figura 14.61 Resultado do teste para verifica^ao de existencia de superdispersao no SPSS. 
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^5* Compute Variable 


Target Variable: 


Numeric Expression: 



<5a estudante 
$ quantas vezes chegou, 
$ distancia que percorre. 
$ quantidade de semafor. 
£& period© do cfla [per] 

4* Predicted Value of Me.., 
$ yasterisco 



j Ok J } Paste j |"ges<a ^ [ Cancer f.Help 


Figura 14.62 Cria^ao da variavel Inatrasos para estima^ao de um modelo de regressao log-linear. 


Linear Regression 


\Sk. est uda nte ___; 

4? quantas vezes chegou... 

? distancia que percorre... 
4? quantidade de semafor... 

pertodo do dia (per) 

4? Predicted Value of Me... 


Dependent: 


[ Inatrasos 


Block 1 of 1 - 


r_» 


Next 


Independent(s): 


$ distancia que percorre ate a es... 
$ quantidade de semaforos [sem] 


Method: Enter 


Selection Variable: 


Case labels: 


IZJ 


WLS Weight: 


Help 


Statistics... 


Plots... 


Save... 


Options.. 


[Bootstrap... : 


Figura 14.63 Caixa de dialogo para estimagao da regressao log-linear. 
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No botao Save..., devemos marcar a op^ao Unstandardized, em Predicted Values, conforme mostra a 
Figura 14.64. Na sequencia, podemos clicar em Continue e em OK. Este procedimento criara no banco de da¬ 
dos uma nova variavel, chamada pelo SPSS de PRE_i , que corresponde a variavel yhat gerada quando da estima- 
$ao pelo Stata (valores previstos do logaritmo natural do numero de atrasos semanais por aluno). 




Nao apresentaremos os resultados desta regressao multipla estimada pelo SPSS, uma vez que nos inte- 
ressa, neste momento, apenas gerar outra variavel, a partir da variavel PRE_1 , que representara os valores 
previstos do numero de atrasos semanais propriamente ditos por aluno. Esta variavel, que chamaremos de 
eyhat , podera ser criada clicando-se novamente em Transform —> Compute Variable..., conforme mos¬ 
tra a Figura 14.65. 

A fim de elaborarmos um grafico similar ao apresentado na Figura 14.30, ou seja, um grafico que permite que 
sejam comparados, para cada uma das estimates, os valores previstos e os valores reais do numero de atrasos por 
semana, vamos agora clicar em Graphs —> Legacy Dialogs —» Line... e, na sequencia, nas op^oes Multiple e 
Summaries of separate variables, como apresentado na Figura 14.66. 
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^ Compute Variable 


Target Variable: 
[eyhat 


[Types, Labe)...’ 


Oa estudante 

$ quantas vezes chegou.. 
^ distancia qua percorre.. 
$ quantfdade de semafor.. 
£3 periodo do dia [perj 
^ Predicted Value of Me... 


$ Inatrasos 

^ Unstandardized Predie.. 


Numeric Expression: 




IfT 1 (optional case selection condition) 


( OK ] (paste l^Reset""! ^Cancel![Help 




Function group: 


AO 

Arithmetic 

CDF & Noncentra! CDF 
Conversion 
Current Date/Time 
Date Arithmetic 

iPate C r e ation_ 


Functions and Special Variables: 


Figura 14.65 Cria^ao da variavel eyhata partir da variavel PRE_1. 


Line Charts 


/V 


Simple 



Drop-fine 



rOeta in Chart Are 


© Summaries for groups of cases 
@ Summaries of separate variables 
© Values of individual cases 


f Define 



Figura 14.66 Caixa de dialogo para elabora<;ao de grafico para comparagao das estimates. 
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Figura 14.67 Sele^ao das variaveis a serem inseridas no grafico. 


Ao clicarmos em Define, surgira uma caixa de dialogo como a apresentada na Figura 14.67. Devemos inserir 
as variaveis MeanPredicted (quantidade prevista de atrasos semanais para cada aluno estimada por maxima veros- 
similhan^a para o modelo de regressao Poisson) e eyhat (quantidade prevista de atrasos semanais para cada aluno 
estimada por OLS para o modelo de regressao multipla log-linear) na caixa Lines Represent e a variavel atrasos 
em Category Axis. Na sequencia, podemos clicar em OK. 

O grafico da Figura 14.68 oferece uma oportunidade de compara^ao dos comportamentos dos valores pre- 
vistos com os valores reais da variavel dependente para cada uma das estimates elaboradas, de onde se pode ve- 
rificar que sao diferentes. Conforme discutido, o fato de determinada variavel dependente ser quantitativa nao 
e condi^ao suficiente para que seja elaborado um modelo de regressao multipla com estima^ao OLS. Dados de 
contagem apresentam distributes particulars e o pesquisador sempre precisa estar atento a este fato, a fim de 
que sejam estimados modelos adequados e consistentes para efeitos de diagnostico e de previsao. 

14.5.2. Modelo de regressao binomial negativo no software SPSS 

Seguindo a mesma logica proposta na se^ao anterior, vamos agora abrir o arquivo QuantAtrasosBNeg.sav, 
que traz dados sobre a quantidade mensal de atrasos dos 100 alunos, a distancia percorrida no trajeto (em qui- 
lometros), o numero de semaforos pelos quais cada um passa e o periodo do dia em que cada estudante tern o 
habito de se deslocar para a escola (manha ou tarde). 

Clicando em Analyze —> Descriptive Statistics Frequencies..., podemos inicialmente elaborar o 
diagnostico sobre a distribui^ao da variavel dependente. Nesta caixa de dialogo, nao apresentada novamente 
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Figura 14.68 Valores previstos x valores observados para os modelos de regressao Poisson 
e de regressao multipla log-linear [OLS). 


aqui, devemos inserir a variavel dependente atrasos (quantas vezes chegou atrasado a escola no ultimo mes?) 
em Variable(s) e, no botao Statistics..., devemos marcar as op^oes Mean e Variance. Ja no botao Charts..., 
marcaremos a op^ao Histograms para, entao, clicarmos em Continue e em OK. Os outputs encontram-se 
na Figura 14.69. 

Estes outputs sao os mesmos daqueles apresentados naTabela 14.11 e na Figura 14.12 da se$ao 14.3.1 e tam- 
bem nas Figuras 14.32,14.33 e 14.34 da segao 14.4.2 e, por meio deles, podemos verificar, ainda que de forma 
preliminar, que ha indicios de existencia de superdispersao nos dados, uma vez que a variancia e superior a media 
da variavel dependente. 

Recomenda-se, portanto, que seja inicialmente estimado um modelo de regressao Poisson, para, a partir de 
seus resultados, ser elaborado o teste para verifica^ao de existencia de superdispersao nos dados. Nao iremos mos- 
trar novamente as janelas para estima^ao deste modelo no SPSS, assim como foi feito na segao anterior, porem 
serao descritos os passos para a sua elabora^ao. 

Assim sendo, vamos inicialmente clicar em Analyze —» Generalized Linear Models —» Generalized 

Linear Models.... Na caixa de dialogo que sera aberta, devemos selecionar, na pasta Type of Model, a op^ao 
Poisson loglinear (em Counts). Ja na pasta Response, devemos incluir a variavel atrasos na caixa Dependent 
Variable. Enquanto na pasta Predictors, devemos incluir as variaveis dist , sem e per na caixa Covariates, na pasta 
Model devemos inserir estas mesmas tres variaveis na caixa Model. Na pasta Statistics, alem das op^oes ja se- 
lecionadas de forma padrao pelo SPSS, devemos selecionar tambem a op$ao Include exponential parameter 
estimates e, por fim, na pasta Save, selecionaremos apenas a op^ao Predicted value of mean response. Ao 
clicarmos em OK, serao gerados os outputs da estima^ao do modelo de regressao Poisson, que nao serao, em sua 
totalidade, apresentados aqui. 

A Figura 14.70 apresenta apenas o output que nos interessa neste momento (Goodness of Fit) e, por meio 
dele, podemos verificar que a qualidade do ajuste do modelo estimado nao e adequada, visto que, para um 
= 145,295 (Deviance), temos, para 96 graus de liberdade, que Sig. % 2 < 0,05, ou seja, existem diferen^as esta- 
tisticamente significantes entre os valores previstos pelo modelo Poisson e os valores observados do numero de 
atrasos que ocorrem por mes. Esta parte muito importante do output corresponde ao apresentado na Figura 14.36 
quando da estima^ao do modelo pelo Stata. 
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Statistics 


quantas vezes chegou 
atrasado a escoia no ultimo 
mis? 


N Valid 

100 

Missing 

0 

Mean 

1,82 

Variance 

5,422 


quantas vezes chegou atrasado a escola no ultimo mis? 



Frequency 

Percent 

Valid Percent 

Cumulative 

Percent 

Valid 0 

41 

41,0 

41,0 

41,0 

1 

20 

20,0 

20,0 

61,0 

2 

11 

11,0 

11,0 

72,0 

3 

7 

7,0 

7,0 

79,0 

4 

6 

6,0 

6,0 

85,0 

5 

7 

7,0 

7,0 

92,0 

6 

3 

3,0 

3,0 

95,0 

7 

2 

2,0 

2,0 

97,0 

8 

1 

1,0 

1.0 

98,0 

10 

2 

2,0 

2,0 

100,0 

Total 

100 

100,0 

100,0 




Figura 14.69 Media, variancia, tabela de frequences e histograma da variavel dependente. 


A qualidade do ajuste do modelo de regressao Poisson estimado pode nao ter sido adequada pela presen- 
$a de superdispersao nos dados da variavel dependente e, portanto, vamos agora elaborar o teste para verifica- 
$ao da existencia deste fenomeno. Seguindo o que foi exposto na se^ao anterior, precisamos criar uma nova 
variavel, que tambem chamaremos aqui de yasterisco e, para tanto, vamos clicar em Transform —> Compute 
Variable....A expressao que deve ser digitada na caixa Numeric Expression refere-se a expressao (14.14) e, no 
SPSS, sera a mesma daquela apresentada na Figura 14.58, ou seja, (((atrasos-MeanPredicted)**2)-atrasos)/ 
MeanPredicted, em que a variavel MeanPredicted , gerada no banco de dados apos a estima^ao do modelo de re¬ 
gressao Poisson, refere-se a quantidade prevista de atrasos mensais para cada aluno. Tambem nao apresentaremos 
aqui as figuras dispostas na se^ao anterior. 
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Goodness of Fit 5 



Value 

df 

Value/df 

Deviance 

145,295 

96 

1,513 

Scaled Deviance 

145,295 

96 


Pearson Chi-Square 

142,235 

96 

1,482 

Scaled Pearson Chi- 
Square 

142,235 

96 


Log Likelihood 3 

-154,894 



Akalke’s Information 
Criterion (AIC) 

317,788 



Finite Sample Corrected 

AIC CAICC) 

318,209 



Bayesian Information 
Criterion (BIC) 

328,208 



Consistent AIC (CAIC) 

332,208 




Dependent Variable: quantas vezes chegou atrasado a 
escola no ultimo mis? 

Model: (Intercept), dist, sem, per 


a. The full log likelihood function is displayed and used in 
computing information criteria. 

b. information criteria are in smalMs-betterform. 


Figura 14.70 Qualidade do ajuste do modelo de regressao Poisson inicialmente estimado. 


Apos clicarmos em OK, a nova variavel yasterisco surgira na base de dados.Vamos, portanto, regredi-la em 
fun^ao da variavel MeanPredicted , seguindo a expressao (14.15). Para tanto, devemos clicar em Analyze —> 
Regression —» Linear..., e inserir a variavel yasterisco na caixa Dependent e a variavel MeanPredicted em 

Independent(s). Por fim, no botao Options..., devemos desmarcar a op^ao Include constant in equa¬ 
tion e, na sequencia, devemos clicar em Continue e em OK. O output que nos interessa encontra-se na 
Figura 14.71. 


Coefficients 3 « b 


Model 

Unstandardized Coefficients 

Standardized 

Coefficients 

t 

Sig. 

B 

Std. Error 

Beta 

1 Predicted Value of Mean 

of Response 

,133 

,062 

,210 

2,139 

,035 


a. Dependent Variable: yasterisco 

b. Linear Regression through the Origin 


Figura 14.71 Resultado do teste para verifica^ao de existencia de superdispersao no SPSS. 


Como o valor-P (Sig .) do teste t correspondente ao parametro /3 da variavel MeanPredicted (Predicted Value of 
Mean of Response) e menor do que 0,05, podemos afirmar que os dados da variavel dependente apresentam 
superdispersao ao nivel de significancia de 5%, fazendo com que o modelo de regressao Poisson estimado nao 
seja adequado. O output da Figura 14.71 equivale ao output da Figura 14.35 (estima^ao pelo Stata). 

Vamos entao a estima^ao do modelo de regressao binomial negativo. Para tanto, devemos clicar em Analyze 
—> Generalized Linear Models -> Generalized Linear Models... e, na caixa de dialogo que sera aberta, 
devemos marcar, na pasta Type of Model, a op^ao Custom. Nesta mesma pasta, devemos ainda selecionar as 
op^oes Negative binomial (em Distribution),Log (em Link function) e Estimate value (em Parameter). 
Esta ultima op^ao refere-se a estima^ao do parametro 0 e, portanto, sera estimado um modelo de regressao NB2. 
A Figura 14.72 mostra como ficara esta pasta apos a sele^ao das op^oes. 
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Figura 14.72 Caixa de dialogo inicial para estima^ao do modelo NB2 no SPSS. 

Para as demais pastas, o pesquisador pode optar por manter as mesmas op^oes que ja foram selecionadas quan- 
do da estima^ao inicial do modelo de regressao Poisson. Os outputs gerados por meio da estima^ao do presente 
modelo de regressao binomial negativo encontram-se na Figura 14.73. 

O primeiro output desta figura (Goodness of Fit) apresenta o valor da somatoria do logaritmo da fun^ao de 
maxima verossimilhan^a da estima^ao do modelo NB2 (Log Likelihood), que e de -151,012 e e exatamente igual 
ao valor obtido quando da modelagem no Excel (Tabela 14.12 e Figura 14.14) e no Stata (Figuras 14.37, 14.39 
e 14.41). Por meio do mesmo output, podemos tambem verificar que a qualidade do ajuste do modelo estimado e 
agoraadequada,visto que,paraum^ 2 ^ ; = 105,025 (DmVmre),temos,para96 graus deliberdade,que Sig.^ 2 > 0,05 (ja 
que % 2 c = 119,871 para 96 graus de liberdade e nivel de significance de 5%), ou seja, nao existem diferen^as 
estatisticamente sigriificantes entre os valores previstos e os observados da quantidade de atrasos que ocorrem por 
mes ao se chegar a escola. Esta parte do output corresponde ao Deviance que e apresentado pelo Stata quando da 
estima^ao do modelo de regressao binomial negativo obtida pelo comando glm. . ., family (nbinomial ml) 
(Figura 14.39). 

Podemos tambem verificar, com base no teste % 2 (Likelihood Ratio Chi-Square = 63,249, Sig. X 2 = 0,000 < 0,05 
apresentado no output Omnibus Test), que a hipotese nula de que todos os parametros /3 (j = 1,2, 3) sejam es¬ 
tatisticamente iguais a zero pode ser rejeitada ao nivel de significance de 5%, ou seja, pelo menos uma variavel 
X e estatisticamente significante para explicar a ocorrencia de atrasos por mes. 

Os parametros estimados encontram-se no output Parameter Estimates e sao exatamente iguais aos calcu- 
lados manualmente e apresentados na Figura 14.14 (Excel) e tambem obtidos por meio dos comandos nbreg ou 
glm. . . , family (nbinomial ml) do Stata (Figuras 14.37 e 14.39, respectivamente). Este mesmo output tambem 
apresenta as incidence rate ratios (ou irr) de cada variavel explicativa, que o SPSS chama de Exp(B), conforme tam¬ 
bem ja apresentado por meio da Figura 14.41. Como todos os intervalos de confian^a dos parametros estimados 
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Goodness of Fit b 



Value 

df 

Value/df 

Deviance 

105,025 

96 

1,106 

Scaled Deviance 

105,025 

95 


Pearson Chi-Square 

104,703 

96 

1,102 

Scaled Pearson Chi- 
Square 

104,703 

95 


Log Likelihood 5 

-151,012 



Akaike's Information 
Criterion (AIO) 

312,025 



Finite Sample Corrected 

AIC (AICC) 

312,663 



Bayesian Information 
Criterion (BIC) 

325,050 



Consistent AIC (CAIC) 

330,050 




Dependent Variable: quantas vezes chegou atrasado a 
escola no ultimo mes? 

Model: (Intercept), dist, sem, per 


a. The full log likelihood function is displayed and used in 
computing information criteria. 

b. Information criteria are in small-is-betterform. 


Omnibus Test 3 


Likelihood 
Ratio Chi- 
Square 

df 

Sig. 

63,249 

3 

,000 


DependentVariable: quantas 
vezes chegou atrasado £ escola 
no dftimo mes? 

Model: (Intercept), dist, sem, per 

a. Compares the fitted model 
against the intercept-only model. 


Parameter Estimates 





95% Wald Confidence Interval 

Hypothesis Test 


95% Wald Confidence Interval 
for Exp(B) 

Parameter 

B 

Std. Error 

Lower 

Upper 

mild Chi- 
Square 

df 

Sig. 

exp(B) 

Lower 

Upper 

(Intercept) 

-4.997 

1,2494 

-7,446 

-2,548 

15,998 

1 

,000 

,007 

,001 

,078 

dist 

,308 

,0713 

,168 

,44? 

18,644 

1 

,000 

1,360 

1,183 

1,564 

sem 

,197 

,0495 

,100 

,294 

15,874 

1 

,000 

1,218 

1,105 

1,342 

per 

-.927 

,2570 

-1,431 

-.424 

13,020 

1 

,000 

,396 

,239 

,655 

(Scale) 

1* 










(Negative binomial) 

,255 

,1248 

,098 

,666 








Dependent Variable: quantas vezes chegou atrasado d escola no ultimo mis? 
Model: (Intercept), dist sem, per 

a. Fixed at the displayed value. 


Figura 14.73 Outputs do modelo de regressao binomial negativo (NB2) no SPSS. 


(95% Wald Confidence Interval) nao contem o zero e, consequentemente, os de Exp(B) nao contem o l,ja chegamos 
ao modelo final de regressao binomial negativo (todos os Sig . Wald Chi-Square < 0,05). 

Logo, a expressao da quantidade media estimada de atrasos por mes para um determinado aluno i pode ser 
escrita como: 

(—4,997+0,308.<fis(f+0,197.sem,-0,927. perA 

U i = e 

Alem disso, tambem com base no output final da Figura 14.73, as quantidades estimadas de atrasos por mes 
apresentam, com 95% de mvel de confian^a, expressoes de minimo e de maximo iguais a. 
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'7,446+0, 16S.dist +0,100. semi— 1,431. perA 

u { — e K ' 


(-2,549+0,447 .dist +0,294. sem ■ -0,424. per ;•) 

u. — e K ' 

*ma x 

Por fim, a parte inferior do output final da Figura 14.73 apresenta a estima^ao de (j) ( Negative binomial ). 
Conforme podemos observar, o intervalo de confian^a para (j) nao contem o zero, ou seja, para o nivel de con- 
fian^a de 95%, podemos afirmar que (j) e estatisticamente diferente de zero e com valor estimado igual a 0,255, 
conforme ja calculado na se^ao 14.3.1 por meio do Solver do Excel (Figura 14.14) e na se^ao 14.4.2 por meio 
do Stata (Figuras 14.37, 14.39 e 14.41). Isso comprova a existencia de superdispersao nos dados, com a 
variancia da variavel dependente apresentando a seguinte expressao: 

Var(Y) = u + 0,255.w 2 

Por fim, vamos agora elaborar um grafico similar ao apresentado na Figura 14.45, porem com a inclusao tam- 
bem dos valores estimados por OLS de um modelo de regressao multipla log-linear. Em outras palavras, elabo- 
raremos um grafico que permite que sejam comparados, para cada um dos modelos estimados (binomial negati¬ 
vo, Poisson e regressao log-linear por OLS), os valores previstos e os valores reais do numero de atrasos por mes. 

Como os valores previstos das estimates dos modelos Poisson e binomial negativo ja se encontram no banco 
de dados (variaveis MeanPredicted e MeanPredicted_l, respectivamente), precisamos, neste momento, estimar o mode¬ 
lo de regressao multipla log-linear por OLS, cujos resultados nao serao aqui apresentados, porem os procedimentos 
serao descritos. 

Desta forma, vamos gerar uma variavel chamada de Inatrasos , que corresponde ao logaritmo natural da variavel 
dependente atrasos, clicando em Transform —> Compute Variable.... A expressao que deve ser digitada na caixa 
Numeric Expression e ln(atrasos) para que, desta forma, o modelo inatrasos. = CC + p 1 .dist i + p 2 .sem { + P 3 .per i 
possa ser estimado por OLS. 

Na sequencia, vamos clicar em Analyze —» Regression —» Linear..., e inserir a variavel Inatrasos na caixa 
Dependent e as variaveis dist, sem e per na caixa Independent(s). No botao Save..., devemos marcar a opgao 
Unstandardized, em Predicted Values e, por fim, podemos clicar em Continue e em OK. Este procedimen- 
to criara no banco de dados uma nova variavel, chamada pelo SPSS de PRE_1 (valores previstos do logaritmo 
natural do numero de atrasos por mes). 

Entretanto, a variavel que desejamos criar refere-se aos valores previstos do numero de atrasos mensais, e nao 
aos valores previstos do logaritmo natural do numero de atrasos mensais. Portanto, precisamos clicar novamente 
em Transform —> Compute Variable... e criar uma variavel chamada de eyhat, cuja expressao a ser digitada 
na caixa Numeric Expression e exp(PRE_l). 

Desta forma, podemos elaborar o grafico desejado, clicando em Graphs —» Legacy Dialogs Line... e, 
na sequencia, nas opgoes Multiple e Summaries of separate variables. Ao clicarmos em Define, surgira uma 
caixa de dialogo em que deveremos inserir as variaveis MeanPredicted (valores previstos pelo modelo Poisson), 
MeanPredicted__l (valores previstos pelo modelo binomial negativo) e eyhat (valores previstos pelo modelo de re¬ 
gressao log-linear estimado por OLS) na caixa Lines Represent e a variavel atrasos em Category Axis. Na 
sequencia, podemos clicar em OK. 

O grafico gerado pode ser editado por meio de um duplo clique, e aqui se optou pela apresenta^ao de uma 
interpola^ao do tipo Spline, conforme mostra a Figura 14.74. O grafico final encontra-se na Figura 14.75. 

Por meio da analise do grafico da Figura 14.75 podemos verificar que a variancia da quantidade prevista 
de atrasos mensais e bem superior para o caso do modelo de regressao binomial negativo, cuja estima^ao 
consegue de fato capturar a existencia de superdispersao nos dados, principalmente para valores maiores 
de atrasos por mes. 

Isso confirma o fato de que distribui^oes de dados de contagem com amplitudes maiores de seus valores ob- 
servados podem aumentar a variancia da variavel em estudo numa propor^ao maior do que a sua media, o que 
pode acarretar em uma superdispersao nos dados. Enquanto nao se verificou a existencia de superdispersao pa¬ 
ra os dados de contagem semanal, com menos possibilidades de ocorrencia, este fenomeno tornou-se presente 
quando os dados de contagem passaram a se apresentar de forma mensal, ou seja, com mais amplas possibilidades 
de ocorrencia. Conforme estudamos neste capitulo, enquanto o primeiro caso foi abordado por meio da estima^ao de 
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Figura 14.74 Definigao da interpolate* do tipo Spline para elaborate* de graficos. 



Figura 14.75 Valores previstos x valores observados de atrasos mensais para os modelos 
de regressao binomial negativo, Poisson e log-linear ( OLS ). 
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um modelo de regressao Poisson, os dados do segundo caso acabaram por apresentar um melhor ajuste quando 
se estimou um modelo de regressao binomial negativo. 

14.6. CONSIDERASOES FINAIS 

A estimagao de modelos de regressao em que a variavel dependente e composta por dados de contagem apre- 
senta inumeras aplicagoes, porem ainda e pouco explorada, seja pelo desconhecimento dos modelos existentes, 
seja pelo senso comum, ainda que incorreto, de que se a variavel dependente for quantitativa, cabe a estimagao 
OLS , independentemente da sua distribuigao. 

Os modelos de regressao Poisson e binomial negativo sao modelos log-lineares (ou semilogaritmicos a esquerda) 
e representam os modelos para dados de contagem mais conhecidos, sendo estimados por maxima verossimilhanga. 
Enquanto a estimagao correta de um modelo de regressao Poisson exige que nao ocorra o fenomeno da superdis¬ 
persao nos dados da variavel dependente, a estimagao de um modelo de regressao binomial negativo permite que a 
variancia da variavel dependente seja estatisticamente superior a sua media. 1 

Recomenda-se que, antes que seja definido o mais adequado e consistente modelo de regressao quando hou- 
ver dados de contagem, seja elaborado um diagnostico sobre a distribuigao da variavel dependente e estimado um 
modelo de regressao Poisson para, a partir de entao, ser elaborado um teste para verificagao de existencia de super¬ 
dispersao nos dados. Caso isso se comprove, deve ser estimado um modelo de regressao binomial negativo, sendo 
recomendavel o modelo do tipo NB2. 

Os modelos de regressao Poisson e binomial negativo devem ser estimados por meio do uso correto do sof¬ 
tware escolhido, e a inclusao inicial de potenciais variaveis explicativas do fenomeno em estudo deve ser sempre 
feita com base na teoria subjacente e na intuigao do pesquisador. 

14.7. EXERCICIOS 

1. Uma financeira de um grande estabelecimento varejista de eletroeletronicos deseja saber se a renda e a idade 
dos consumidores explicam a incidencia do uso de financiamento, via credito direto ao consumidor (CDC), 
quando da compra de bens como telefones celulares, tablets, laptops, televisoes, videogames, aparelhos de DVD, 
entre outros, a fim de que seja possivel elaborar uma campanha de promogao dessa forma de financiamento seg- 
mentada pelo perfil dos clientes. Para tanto, a area de marketing da financeira selecionou, aleatoriamente, uma 
amostra de 200 consumidores provenientes de sua base total de clientes, com as seguintes variaveis: 


Variavel 

Descri^ao 

id 

Variavel string que varia de 001 a 200 e que identifica o consumidor. 

quantcompras 

Variavel dependente correspondente a quantidade de compras de bens duraveis realizadas por meio 
de CDC no ultimo ano por consumidor (dados de contagem). 

renda 

Renda mensal do consumidor (R$). 

idade 

Idade do consumidor (anos). 


Por meio da analise do banco de dados presente nos arquivos Financiamento.sav e Financiamento. 
dta, pede-se: 

a. Elabore um diagnostico preliminar sobre a existencia de superdispersao nos dados da variavel quantcompras. 
Apresente a sua media e a sua variancia, e elabore o seu histograma. 

b. Estime um modelo de regressao Poisson e, com base em seus resultados, elabore o teste para veri¬ 
ficagao de existencia de superdispersao nos dados. Qual a conclusao deste teste, ao nivel de signifi¬ 
cance de 5%? 

c. Elabore um teste X 2 P ara comparar as distribuigoes de probabilidades observadas e previstas de incidencia 
anual de uso do CDC. O resultado do teste, ao nivel de significance de 5%, indica a existencia de quali- 
dade do ajuste do modelo de regressao Poisson? 


1 Embora nao seja escopo deste livro, muitos autores comparam estimates por maxima verossimilhanipa de modelos de regressao Poisson 
e binomial negativo com estimates por maxima verossimilhanga de modelos que consideram a variavel dependente censurada, com base 
no desenvolvimento de modelos conhecidos porTobit. Para maiores informa^oes, recomendamos o estudo de Cameron eTrivedi (2009). 
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d. Se a resposta do item anterior for sim, apresente a expressao final para a quantidade media estimada de uso 
anual de financiamento por meio de CDC quando da compra de bens duraveis, em fun^ao das variaveis 
explicativas que se mostraram estatisticamente significantes, ao nivel de confian^a de 95%. 

e. Qual a quantidade media esperada de uso do CDC por ano para um consumidor com renda mensal de 
R$2.600,00 e 47 anos de idade? 

f. Em media, em quanto se altera a taxa de incidencia anual de uso do financiamento por CDC ao se au- 
mentar em R$ 100,00 a renda mensal do consumidor, mantidas as demais condi^oes constantes? 

g. Em media, em quanto se altera a taxa de incidencia anual de uso do financiamento por CDC quando se 
aumenta a idade media do consumidor em 1 ano, mantidas as demais condi^oes constantes? 

h. Elabore um grafico (mspline no Stata ou Spline no SPSS) que mostra o valor previsto de incidencia anu¬ 
al de uso do CDC em fun^ao da renda mensal do consumidor. Fa^a uma breve discussao. 

i. Estime um modelo de regressao multipla log-linear por OLS e compare os resultados previstos deste mo- 
delo com aqueles estimados pelo modelo Poisson. 

j. Caso haja o interesse em aumentar o financiamento por meio de CDC, qual publico-alvo precisa ser abor- 
dado nesta campanha de marketing da financeira? 

2. Com o intuito de estudar se a proximidade de parques e areas verdes e de shoppings e centros de consumo 
faz com que seja reduzida a inten^ao de se vender um apartamento, uma empresa do setor imobiliario residen- 
cial resolveu marcar a localiza^ao de cada um dos 276 imoveis a venda num determinado municipio, conforme 
mostra a figura a seguir: 



Fonte do Mapa: Google Maps. 


A fim de facilitar a elabora^ao do estudo, a imobiliaria criou uma malha quadricular sobre o mapa do 
municipio, com a inten^ao de identificar as caracteristicas de cada microrregiao. Foram criadas, por meio 
deste usual procedimento, 100 quadriculas (10x10) com dimensoes iguais e identificadas de acordo com 
a figura a seguir: 
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Fonte do Mapa: Google Maps. 


Para uma melhor visualiza^ao da quantidade de imoveis a venda em cada microrregiao, na proxima figura 
optou-se por ocultar o mapa do municipio. 

Foram, portanto, levantadas as seguintes variaveis em cada uma das microrregioes do municipio, aqui 
definidas pelas quadriculas: 


Variavel 

Descri^ao 

quadricula 

Variavel string que identifica a microrregiao (quadricula). E nomeada com um numero i seguido de 
uma letra j, em que o numero i varia de 1 a 10 e a letra j, de A a J. 

quantimoveis 

Variavel dependente correspondente a quantidade de imoveis residenciais a venda por quadricula 
(dados de contagem). 

distparque 

Distancia da quadricula ao principal parque do municipio (em metros). 

shopping 

Variavel binaria que indica se ha shoppings ou centros de consumo na quadricula (Nao = 0; 

Sim = 1). 


Os dados encontram-se nos arquivos Imobiliaria.sav e Imobiliaria.dta. Pede-se: 


a. Elabore um diagnostico preliminar sobre a existencia de superdispersao nos dados da variavel quantimoveis. 
Apresente sua media, sua variancia e seu histograma. 

b. Estime o modelo de regressao Poisson a seguir e, com base em seus resultados, elabore o teste para verifi- 
ca^ao de existencia de superdispersao nos dados. Qual a conclusao deste teste, ao nivel de significance de 
5%? Elabore tambem um teste X 2 P ara comparar as distributes de probabilidades observadas e previstas 
para a quantidade de imoveis a venda por quadricula. O resultado do teste, ao nivel de significance de 5%, 
indica a existencia de qualidade do ajuste do modelo de regressao Poisson? Justifique. 

/ . (a+P v parque ij +P 2 . shopping^) 

quantimoveis .. — e x ' 

c. Estime um modelo de regressao binomial negativo do tipo NB2. 
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d. Pode-se dizer, ao mvel de confian^a de 95%, que o parametro 0 (inverso do parametro de forma da 
distribui^ao Gama) e estatisticamente diferente de zero? Se sim, deve-se optar pela estima^ao do modelo 
binomial negativo? 

Os proximos sete itens referem-se a estima^ao do modelo de regressao binomial negativo do tipo NB2: 

e. Qual a expressao da quantidade media estimada de imoveis a venda para determinada quadricula ij ? 

f. Qual e a quantidade media esperada de imoveis a venda para uma microrregiao (quadricula) que se en- 
contra a 820 metros de distancia do parque e nao possui centros de consumo? 

g. Em media, em quanto se altera a taxa de incidencia de imoveis a venda por quadricula quando ha uma 
aproxima^ao media de 100 metros do parque, mantidas as demais condi^oes constantes? 

h. Em media, em quanto se altera a taxa de incidencia de imoveis a venda quando passa a existir um centro 
de consumo ou um shopping na microrregiao (quadricula), mantidas as demais condi^oes constantes? 

i. Elabore um grafico (mspline no Stata ou Spline no SPSS) que mostra o comportamento da quantidade 
prevista de imoveis a venda por quadricula em fun^ao da distancia ate o parque. 

j. Elabore o mesmo grafico, porem agora estratificando as quadriculas que tern centros de consumo das que 
nao tern. 

k. Pode-se dizer que a proximidade de parques e areas verdes e de shoppings e centros de consumo inibe a 
inten^ao de se colocar a venda um imovel residencial? 

Alem disso, pede-se: 

L Compare as estimates dos modelos de regressao Poisson e binomial negativo por meio de um grafico que 
apresenta as distributes de probabilidades observadas e previstas de incidencia de imoveis a venda por qua¬ 
dricula. 

m. Compare tambem a qualidade do ajuste dos dois modelos (Poisson e binomial negativo) por meio da analise 
das diferen^as maximas entre as distributes de probabilidades observadas e previstas que ocorrem em ambos 
os casos. Alem disso, elabore esta analise comparando os valores totals de Pearson das duas estimates. 

n. Estime um modelo de regressao multipla log-linear por OLS e compare os resultados previstos deste mo¬ 
delo com aqueles estimados pelos modelos de regressao Poisson e binomial negativo. 
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APENDICE 


Modelos de regressao inflacionados de zeros 


A) Breve Introdu^ao 

Como parte dos Modelos Lineares Generalizados, os modelos de regressao para dados de contagem sao 
utilizados para os casos em que o fenomeno que se deseja estudar apresenta-se na forma de uma variavel quanti¬ 
tative, porem apenas com valores discretos e nao negativos, conforme estudamos ao longo do capitulo. Entretanto, 
e comum que algumas variaveis com dados de contagem apresentem uma quantidade excessiva de zeros, o 
que pode fazer com que parametros estimados quando da elaboragao de modelos tradicionais de regressao dos 
tipos Poisson ou binomial negativo sejam viesados por nao conseguirem capturar a presen^a exacerbada de con- 
tagens nulas. Nessas situates, podem ser utilizados os modelos de regressao inflacionados de zeros, e neste 
apendice estudaremos tais modelos tambem com foco nos tipos Poisson e binomial negativo. 1 

Os modelos de regressao inflacionados de zeros, de acordo com Lambert (1992), sao considerados uma com- 
binagao entre um modelo para dados de contagem e um modelo para dados binarios, ja que sao utilizados para 
investigar as razoes que levam a determinada quantidade de ocorrencias (contagens) de um fenomeno, bem como 
as razoes que levam (ou nao) a ocorrencia propriamente dita desse fenomeno, independentemente da quantidade 
de contagens observadas. 

Neste sentido, enquanto um modelo Poisson inflacionado de zeros e estimado a partir da combina^ao de 
uma distribui^ao de Bernoulli com uma distribui^ao Poisson, determinado modelo binomial negativo 
inflacionado de zeros e estimado por meio da combina^ao de uma distribui^ao de Bernoulli com uma 
distribui^ao Poisson-Gama, e a escolha de um ou de outro obedece ao que estudamos ao longo do capi¬ 
tulo, ou seja, passa pela existencia de superdispersao nos dados, ou seja, pela analise do inverso do parametro de 
forma da distribui^ao Gama e do correspondente teste de razao de verossimilhan^a para o referido parametro. 
Voltaremos a discutir essa questao mais adiante, quando da elabora^ao de um exemplo em Stata. 

A propria definigao sobre a existencia ou nao de uma quantidade excessiva de zeros na variavel dependente Y 
e elaborada por meio de um teste especifico, conhecido por teste de Vuong (1989), que representara o primeiro 
output a ser analisado na estima^ao de modelos de regressao inflacionados de zeros. 

Em rela^ao especifica aos modelos de regressao Poisson inflacionados de zeros, podemos definir que, 
enquanto a probabilidade p de ocorrencia de nenhuma contagem para dada observagao i (i = 1,2 
em que n e o tamanho da amostra), ou seja, p(Yi = 0 ), e calculada levando-se em consideragao a soma de um 
componente dicotomico com um componente de contagem e, portanto, deve-se definir a probabilidade Plogit { 
de nao ocorrer nenhuma contagem devido exclusivamente ao componente dicotomico, a probabilidade p de 
ocorrencia de determinada contagem m (m = 1, 2,...), ou seja,p (Yi = m), segue a propria expressao da 
probabilidade da distribui^ao Poisson, multiplicada por (1 - Pfogit)- 

Portanto, fazendo uso das expressoes (13.10) e (14.1),temos que: 


P (Ji = °) = Plogit, + (l - Plogit, \ e Z ‘ 

—4 r m 

p( Y i=m) = (l-piogit ). - '-f-, m = 1, 2, ... 

I x 6 17 m ! 

sendo Y ~ ZIP (A, Plogit), em que ZIP significa zero inflated Poisson , e sabendo-se que: 


(14.32) 


1 E importante mencionar que, alternativamente aos modelos de regressao inflacionados de zeros dos tipos Poisson e binomial negativo, o 
pesquisador tambem pode optar pela estima^ao de modelos hurdle quando do estudo do comportamento de determinada variavel depen¬ 
dente com dados de contagem e quantidade excessiva de zeros. Os modelos hurdle, embora nao contemplados na presente edi^ao deste 
livro, podem ser estudados em Cameron eTrivedi (2009). 
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e 


P logit. 


_1_ 

i+ e -(y +s < w «+■■■+<? w,) 


(14.33) 


A. = e (a+P l .x li +p 2 .x 2 i +...+l} k .x ki ) 


(14.34) 


Podemos verificar que, se Plogit { = 0, claramente a distribui^ao de probabilidades da expressao (14.32) se resu¬ 
me a distribui^ao Poisson, inclusive para casos em que Y = 0. Em outras palavras, os modelos de regressao Poisson 
inflacionados de zeros apresentam dois processos geradores de zeros, sendo um devido a distribui^ao binaria (nes- 
te caso, sao gerados os chamados zeros estruturais) e outro devido a distribui^ao Poisson (nesta situa^ao, sao 
gerados dados de contagem, entre os quais os chamados zeros amostrais .) 2 

Com base nas expressoes (14.33) e (14.34), podemos, portanto, definir que, enquanto a ocorrencia de zeros 
estruturais e influenciada por um vetor de variaveis explicativas W v W 2 , ..., bP, a ocorrencia de determinada 
contagem m e influenciada por um vetor de variaveis X v X 2 , ..., X fe . Em alguns casos, o pesquisador pode inserir 
a mesma variavel nos dois vetores, caso deseje investigar se essa variavel influencia, concomitantemente, a ocor¬ 
rencia do evento e, em caso afirmativo, a quantidade de ocorrencias (contagens) do referido fenomeno. 

A partir da expressao (14.32), e seguindo a logica para a defini^ao do logaritmo da fun^ao de verossi- 
milhan^a (log likelihood function) apresentado na expressao 14.7, podemos chegar a seguinte fun^ao-objetivo, 
que tern por intuito estimar os parametros a, fi 2 ,..., p k e /, S v <5 2 ,..., S k de determinado modelo de regressao 
Poisson inflacionado de zeros: 


LL ~ ^ l n Plogit. Plogit.\ e 1 + 

Y=0 

X [ ln { l ~Piogit ,)■-■4 + ( Y i )•1“(4)■- :ln ( Y i o] = mdx 


Y> 0 


(14.35) 


cuja solu^ao, assim como apresentado ao longo do capitulo, pode ser obtida por meio de ferramentas de progra- 
ma^ao linear. 

Ja em rela^ao aos modelos de regressao do tipo binomial negativo inflacionados de zeros, podemos 
definir que, enquanto a probabilidade p de ocorrencia de nenhuma contagem para dada observa^ao i, ou 
seja, p(Yi = 0 ), e tambem calculada levando-se em considera^ao a soma de um componente dicotomico com 
um componente de contagem, a probabilidade p de ocorrencia de determinada contagem m (m = 1,2, 
...), ou seja, p(Yi = m), segue agora a expressao da probabilidade da distribui^ao Poisson-Gama. Nesse sentido, 
fazendo uso das expressoes (13.10) e (14.25), temos que: 


P{Yi~0) Piogit. (l Piogit . )• 

p(Yi=m) = {\-pio^t). 


1 

f l 3T 


1 + (fr.Ui 
1_ 

f 1 -1 


+ 0 1 -0 ^ 




1 + (j)Mi 






<p.Uf +1 


m — 1, 2, ... 


(14.36) 


sendo Y ~ ZINB (0, u, Piogit ), em que ZINB significa zero inflated negative binomial e 0 representa o inverso do 
parametro de forma de determinada distribui^ao Gama, e sabendo-se, de forma analoga ao apresentado para os 
modelos de regressao Poisson inflacionados de zeros, que: 


Piogit, 


_1_ 

l+ -{n$w h +s 1 .w 2l+ ...+s q .w^ 


(14.37) 


2 Note que a expressao (14.33) refere-se ao modelo logit estudado no Capitulo 13. O pesquisador pode, entretanto, optar por utilizar a 
expressao de probabilidades do modelo probit, estudada no apendice do mesmo capitulo, para investigar a existencia de zeros estruturais 
referentes a distribui^ao de Bernoulli. 
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e 


Uj =e 


(a+P r X u +p 2 .X 2: +...+/3 k .X ti ) 


(14.38) 


Podemos novamente verificar que, se Plogit t = 0, a distribuigao de probabilidades da expressao (14.36) se re¬ 
sume a distribuigao Poisson-Gama, inclusive para casos em que Y = 0. Logo, os modelos de regressao do tipo 
binomial negativo inflacionados de zeros tambem apresentam dois processos geradores de zeros, oriundos da dis¬ 
tribuigao binaria e da distribuigao Poisson-Gama. 

Portanto, com base na expressao (14.36), e a partir do logaritmo da fungao de verossimilhanga (log likelihood 
function) definido na expressao 14.29, chegamos a seguinte fungao-objetivo, que tern por intuito estimar os pa- 
rametros, 0, a, ..., /3 fe e % 8 V <5 2 ,..., <5 fe de determinado modelo de regressao binomial negativo inflacionado 
de zeros: 


LL = In 
Y= 0 


Plogit , Plogit t )• 


f 1 ^ 
yl+Qtoi J 


+ 


l 

Y> 0 


l* 1 (l Plogit t ) 4" Yj • In 


f <f).u i \ ln(l + ^.w ; ) 

V 1+ M' J $ 


+ lnr(^+^ _1 )-lnr(^+l)-lnr((Z> _1 ) =max 


(14.39) 


cuja solugao tambem pode ser obtida por meio de ferramentas de programa^ao linear. 

Na sequencia, apresentaremos um exemplo elaborado em Stata, em que sao estimados os parametros de um 
modelo de regressao Poisson e de um modelo de regressao binomial negativo, ambos inflacionados de zeros. 
Inicialmente, sera estudada a significancia da quantidade excessiva de zeros na variavel dependente Y (teste de 
Vuong) para, posteriormente, ser avaliada a significancia do inverso parametro de forma 0 da distribui^ao Gama 
(teste de razao de verossimilhan^a para o parametro 0), ou seja, a existencia de superdispersao nos dados. O 
Quadro 14.2 apresenta a rela^ao entre os modelos de regressao para dados de contagem e a existencia de super¬ 
dispersao e de excesso de zeros nos dados da variavel dependente. 


Quadro 14.2 Modelos de regressao para dados de contagem, superdispersao e 
excesso de zeros nos dados da variavel dependente. 


Verificagao 

Modelo de Regressao para Dados de Contagem 

Poisson 

Binomial 

Negativo 

Poisson Inflacionado 
de Zeros (ZIP) 

Binomial Negativo Inflacionado 
de Zeros (ZINB) 

Superdispersao nos Dados da 
Variavel Dependente 

Nao 

Sim 

Nao 

Sim 

Quantidade Excessiva de Zeros 
na Variavel Dependente 

Nao 

Nao 

Sim 

Sim 


Desta forma, enquanto os modelos inflacionados de zeros dos tipos Poisson e binomial negativo sao mais 
apropriados quando houver uma quantidade excessiva de zeros na variavel dependente, o uso desses ultimos e 
ainda mais recomendavel quando houver superdispersao nos dados. 

B) Exemplo: Modelo de Regressao Poisson Inflacionado de Zeros no Stata 

A fim de elaborarmos modelos de regressao inflacionados de zeros, faremos uso do banco de dados Acidentes. 
dta. Para a elaboragao dessa base, foi investigada a quantidade de acidentes de transito que ocorreram em uma se- 
mana em 100 cidades de determinado pais, que representa a variavel dependente com dados de contagem. Alem 
disso, inseriu-se na base a popula^ao urbana, a idade media dos habitantes com carteira de habilitagao em vigencia 
e o fato de o municipio ado tar lei seca apos as 22:00h. O comando desc permite que estudemos as caracteristicas 
do banco de dados, conforme mostra a Figura 14.76. 





774 Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata' 


. desc 





obs: 

100 




vars: 

4 




size: 

1,700 

(99.9% of 

memory free) 



storage 

display 

value 


variable name 

type 

format 

label 

variable label 

acidentes 

byte 

%8. Og 


quantidade de acidentes de transito na 
ultima semana 

pop 

float 

%9.5f 


populagao urbana (x milhao) 

idade 

float 

%9.2f 


idade media dos habitantes com carteira 





de habilitagao em vigencia 

leiseca 

float 

%9. Og 

leiseca 

o municipio adota sei seca apos as 22:00h? 

||Sorted by: j 


Figura 14.76 Descrigao do Banco de Dados Acidentes.dta. 


Neste exemplo, vamos definir a variavel pop como variavel X, e as variaveis idade e leiseca como variaveis W x 
e W r Em outras palavras, nosso intuito e verificar se a probabilidade de nao ocorrencia de acidentes, ou seja, de 
ocorrencia de zeros estruturais, e influenciada pela idade media dos motoristas e pelo fato de haver lei seca apos 
as 22:00h nos municipios e, alem disso, se a ocorrencia de determinada contagem de acidentes na semana em 
estudo e influenciada pela popula^ao de cada municipio i (i — 1,100). Portanto, para o modelo de regressao 
Poisson inflacionado de zeros, devem ser estimados os parametros das seguintes expressoes: 

__ 1 _ 

P logit, i ^ ^—(y+S^ idade } +S 2 .leiseca .) 

X. _ e (a+fi.pop,) 

Inicialmente, vamos analisar a distribuicao de frequencias da variavel acidentes, digitando os seguintes comandos: 

tab acidentes 

hist acidentes, discrete freq 


As Figuras 14.77 e 14.78 apresentam, respectivamente, a tabela de frequencias e o histograma e, por meio de- 
las, e possivel verificarmos, para o pais em estudo, que 58% dos municipios analisados nao apresentaram nenhum 
acidente de transito na semana pesquisada, o que indica, ainda que de forma preliminar, a existencia de uma 
quantidade excessiva de zeros na variavel dependente. 



Figura 14.77 Tabela de frequencias da variavel dependente acidentes. 
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Figura 14.78 Histograma da variavel dependente acidentes. 


Para a elabora^ao do modelo de regressao Poisson inflacionado de zeros, devemos digitar o seguinte comando: 

zip acidentes pop, inf(idade leiseca) vuong nolog 

em que a variavel explicativa X (pop ) deve vir logo apos a variavel dependente ( acidentes ) e as variaveis W ] e W 2 
(idade e leiseca) devem vir entre parentesis, logo apos o termo inf, que significa inflate e corresponde a infla^ao de 
zeros estruturais. O termo vuong faz com que seja elaborado o teste de Vuong (1989), destinado a verifica^ao da 
adequa^ao do modelo inflacionado de zeros em rela^ao ao modelo tradicional especificado (neste caso, Poisson), 
ou seja, tern por finalidade verificar a existencia de uma quantidade excessiva de zeros na variavel dependente. O 
termo nolog faz com que sejam omitidos os outputs referentes as iterates da modelagem para que ja seja apre- 
sentado o valor maximo do logaritmo da fun^ao de verossimilhan^a. 

Alem disso, e importante mencionar que o comando apresentado oferece implicitamente, como padrao, a ex- 
pressao de probabilidades do modelo logit para a verifica^ao de existencia de zeros estruturais referentes a 
distribui^ao de Bernoulli. Entretanto, caso o pesquisador opte por trabalhar com a expressao de probabilidades 
do modelo probit, estudada no apendice do Capitulo 13, devera adicionar o termo probit ao final do comando. 

Os outputs encontram-se na Figura 14.79. 


. zip acidentes pop, inf(idade leiseca) vuong nolog 


Zero-inflated Poisson regression Number of obs = 100 

Nonzero obs — 42 

Zero obs = 58 

Inflation model = logit LR chi2(l) = 37.72 

Log likelihood = -256.0484 Prob > chi2 = 0.0000 


acidentes | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

acidentes | 

pop | 
__cons | 

.5039652 

.9329778 

.0863993 

.1987482 

5.83 

4.69 

0.000 

0.000 

.3346256 

.5434386 

.6733047 

1.322517 

inflate | 

idade | 
leiseca ] 
__cons | 

.2252293 

1.725743 

-11.72936 

.0584096 

.5531873 

3.030402 

3.86 

3.12 

-3.87 

0.000 

0.002 

0.000 

.1107485 

.6415157 

-17.66884 

.3397101 

2.80997 

-5.789881 

Vuong test of zii 

p vs. standard Poisson: 


z = 

4.19 Pr>z 

= 0.0000 


Figura 14.79 Outputs do modelo de regressao Poisson inflacionado de zeros no Stata. 
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O primeiro resultado que deve ser analisado refere-se ao teste deVuong, cuja estatistica e normalmente dis- 
tribuida, com valores positivos e significantes indicando a adequa^ao do modelo Poisson inflacionado de zeros, 
e com valores negativos e significantes indicando a adequa^ao do modelo tradicional Poisson. Para os dados do 
nosso exemplo, podemos verificar que o teste deVuong indica a melhor adequa^ao do modelo inflacionado de 
zeros sobre o modelo tradicional, visto que z — 4,19 e Pr > z = 0,000. 

Antes de analisarmos os demais outputs, e importante mencionar que Desmarais e Harden (2013) propoem uma cor- 
re^ao ao teste deVuong, que se baseia nas estatisticas Akaike information criterion (AIC) e Bayesian (Schwarz) 
information criterion (BIC) e que deve ser elaborada para que se eliminem eventuais vieses que podem prejudi- 
car a decisao sobre a escolha do modelo mais adequado. Para tanto, basta que seja substituido o termo zip pelo termo 
zipcv (que significa zero inflated Poisson with corrected Vuong), e o novo comando ficara conforme segue: 

zipcv acidentes pop, inf(idade leiseca) vuong nolog 

porem antes de sua elabora^ao no Stata, devemos instalar o comando zipcv, digitando f indit zipcv e clicando 
no link st0319 from http://www.stata-journal.com/software/sjl3-4 . Na sequencia, devemos clicar em 
click here to install. 

Os novos outputs estao na Figura 14.80. 


. zipcv acidentes pop, inf(idade leiseca) vuong nolog 

Zero-inflated Poisson regression Number of obs = 100 

Nonzero obs = 42 


Inflation model = 
Log likelihood 

= logit 
= -256.0484 


Zero obs = 

LR chi2(1) 

Prob > chi2 - 

58 

37.72 

0.0000 

acidentes | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

acidentes | 







pop | 

.5039652 

.0863993 

5.83 

0.000 

.3346256 

.6733047 

_cons | 

.9329778 

.1987482 

4.69 

0.000 

.5434386 

1.322517 

inflate | 







idade j 

.2252293 

.0584096 

3.86 

0.000 

.1107485 

.3397101 

leiseca j 

1.725743 

.5531873 

3.12 

0.002 

.6415157 

2.80997 

_cons | 

-11.72936 

3.030402 

-3.87 

0.000 

-17.66884 

-5.789881 


Vuong test of zip vs. standard Poisson: z = 4.19 Pr>z = 0.0000 

Pr<z = 1.0000 

with AIC (Akaike) correction: z - 4.13 Pr>z = 0.0000 

Pr<z = 1.0000 

with BIC (Schwarz) correction: z = 4.04 Pr>z = 0.0000 

_ Pr<z - 1.0000 

Figura 14.80 Outputs do modelo de regressao Poisson inflacionado 
de zeros com corre^ao no teste de Vuong. 

Para os dados do nosso exemplo, enquanto a estatistica do teste deVuong e ^ = 4,19, as estatisticas com cor- 
re^ao AIC e BIC sao z = 4,13 e z = 4,04, respectivamente, ou seja, todas apresentam Pr > z = 0,000. Em outras 
palavras, os resultados do teste deVuong com corre^ao AIC e BIC continuam permitindo, neste caso, que afir- 
memos que o modelo inflacionado de zeros e mais apropriado. 

Note que os demais outputs apresentados nas Figuras 14.79 e 14.80 sao exatamente os mesmos. Com base 
nesses outputs, podemos verificar que os parametros estimados sao estatisticamente diferentes de zero, a 95% de 
confian^a, e as expressoes finais de Plogit { e de X sao dadas por: 

1 

Plogit i ~ 11 729+0,225 .idade+\,126.leiseca.) 

e 1 + e v ’ '' 

^ _ ^(0,933+0,504./?^.) 

Um pesquisador mais curioso podera obter esses mesmos outputs por meio do arquivo Acidentes ZIP 
Maxima Ver 0 ssimilhan 9 a.xls, usando a ferramenta Solver do Excel, conforme padrao tambem adotado ao 
longo do capitulo e do livro. Nesse arquivo, os criterios do Solver ja estao previamente definidos. 

Portanto, fazendo uso da expressao (14.32) e dos parametros estimados, podemos calcular algebricamente, da 
seguinte forma, a quantidade media esperada de acidentes de transito na semana para um municipio com 700.000 
habitantes, com idade media de seus motoristas igual a 40 anos e que nao adota a lei seca apos as 22:00h: 
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\ _1 f [0,933+0,504.(0,700)]] 3 ^ 

-11,729+0,225.(40)+l,726.(0)] \[ J 

O mesmo resultado pode ser encontrado pelo pesquisador caso seja digitado o seguinte comando, cujo output 
encontra-se na Figura 14.81: 

mfx, at(pop=0.7 idade=40 leiseca=0) 


^inflate j ^ ‘ 


1 + e 


. mfx, at(pop=0.7 idade=40 leiseca=0) 

Marginal effects after zip 

y = Predicted number of events (predict) 
= 3.3938647 


variable | 

dy/dx 

Std. Err. 

z 

P>|z| 

[ 95% 

C.I. ] 

X 

pop | 

1.71039 

.14686 

11.65 

0.000 

1.42256 

1.99822 

.7 

idade | 

-.0472341 

.02209 

-2.14 

0.032 

-.090529 

-.003939 

40 

leiseca* j 

-.7532942 

.43112 

-1.75 

0.081 

-1.59827 

.091684 

0 

(*) dy/dx is 

for discrete 

change of dummy variable 

from 0 to 

1 



Figura 14.81 Calculo da quantidade esperada de acidentes semanais para 
valores das variaveis explicativas - comando mfx. 


Por fim, podemos, por meio de um grafico, comparar os valores previstos da quantidade media de acidentes 
de transito na semana obtidos pelo modelo de regressao Poisson inflacionado de zeros com aqueles que seriam 
obtidos por um modelo tradicional de regressao Poisson, sem considerar, portanto, as variaveis que influenciam a 
ocorrencia de zeros estruturais, ou seja, o componente dicotomico (variaveis idade e leiseca). Para tanto, podemos 
digitar a seguinte sequencia de comandos: 

quietly zipcv acidentes pop, inf(idade leiseca) vuong nolog 
predict lambda_inf 

quietly poisson acidentes pop 
predict lambda 

graph twoway scatter acidentes pop || mspline lambda_inf pop || mspline 
lambda pop ||, legend(label(2 "ZIP") label(3 "Poisson")) 

O grafico gerado e apresentado na Figura 14.82 e, por meio dele, podemos verificar que os valores previstos 
pelo modelo de regressao Poisson inflacionado de zeros (ZIP) ajustam-se de forma mais adequada a quantidade 
excessiva de zeros na variavel dependente. 



Figura 14.82 Quantidade esperada de acidentes de transito por semana x popula^ao 
do municipio (pop) para os modelos ZIP e Poisson. 
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Na sequencia, vamos analisar, com base no mesmo banco de dados, os resultados obtidos por meio da estima- 
£ao de um modelo de regressao binomial negativo inflacionado de zeros. 

C) Exemplo: Modelo de Regressao Binomial Negativo Inflacionado de Zeros no Stata 

Seguindo a mesma logica, vamos fazer uso novamente do banco de dados Acidentes.dta, porem agora com 
foco na estima^ao de um modelo de regressao binomial negativo inflacionado de zeros. Portanto, serao estimados 
os parametros das seguintes expressoes: 

__ 1 _ 

l°giti ^ e —(y+ S x .idade i + S 2 leiseca i ) 

e 

Ui=e {a + /3.pop) 

Assim como discutido ao longo do capitulo, vamos inicialmente analisar a media e a variancia da variavel aci- 
dentes , digitando o seguinte comando: 

tabstat acidentes, stats(mean var) 

A Figura 14.83 apresenta o resultado gerado. 


. tabstat acidentes, stats(mean var) 

variable | mean variance 

——- 1 - 

acidentes | 3.01 42.9999 


Figura 14.83 Media e variancia da variavel dependente acidentes. 

Conforme podemos verificar, a variancia da variavel dependente e aproximadamente 14 vezes maior do que 
a sua media, o que representa um forte indicio da existencia de superdispersao nos dados.Vamos, portanto, partir 
para a estima^ao do modelo de regressao binomial negativo inflacionado de zeros e, para tanto, devemos digitar 
o seguinte comando: 

zinbcv acidentes pop, inf(idade leiseca) vuong nolog zip 

que possui a mesma logica do comando utilizado para a estima^ao do modelo ZIP. Note que optamos por utilizar 
o termo zinbcv (zero inflated negative binomial with corrected Vuong) em vez do termo zinb, visto que, embora 
os parametros estimados sejam exatamente iguais, o primeiro apresenta os resultados do teste de Vuong com cor- 
re^ao AIC e BIC. Alem disso, o termo zip ao final do comando faz com que seja elaborado o teste de razao de 
verossimilhan^a para o parametro 0 (alpha no Stata), ou seja, propicia uma compara^ao da adequa^ao do modelo 
ZINB em rela^ao ao modelo ZIP. Os outputs sao apresentados na Figura 14.84. 

Inicialmente, podemos verificar que o intervalo de confian^a do parametro 0, que e o inverso do parametro 
de forma y/ da distribui^ao binomial negativa e que o Stata cita como alpha, nao contem o zero, ou seja, para 
o mvel de confian^a de 95%, podemos afirmar que 0 e estatisticamente diferente de zero e com valor estimado 
igual a 1,271. Por meio do teste de razao de verossimilhan^a para o parametro 0, pode-se concluir que a hipo- 
tese nula de que este parametro seja estatisticamente igual a zero pode ser rejeitada ao mvel de significancia de 
5% (Sig. X 2 = 0,000 < 0,05), o que comprova a existencia de superdispersao nos dados e indica que o modelo 
ZINB e preferivel ao modelo ZIP. 

Alem disso, o teste de Vuong com corre^ao AIC e BIC, por apresentar significantes estatisticas z a 95% de 
confian^a, indica que o modelo binomial negativo inflacionado de zeros (ZINB) seja preferivel ao modelo tradi- 
cional binomial negativo, pois comprova a existencia de uma quantidade excessiva de zeros. 

Tambem podemos verificar que o parametro estimado da variavel pop e estatisticamente diferente de zero a 
95% de confian^a, ou seja, esta variavel e significante para explicar o comportamento da quantidade de acidentes 
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de transito na semana (componente de contagem). Da mesma forma, as variaveis idade e leiseca sao estatisticamen- 
te significantes para explicar a quantidade excessiva de zeros (zeros estruturais) na variavel acidentes (componente 
dicotomico). 


. zinbcv acidentes pop, inf(idade leiseca) vuong nolog zip 

Zero-inflated negative binomial regression Number of obs = 100 

Nonzero obs = 42 


Inflation model = 
Log likelihood 

= logit 
= -164.4035 


Zero obs = 

LR chi2(1) 

Prob > chi2 = 

58 

10.87 

0.0010 

acidentes 

1 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

acidentes 

1 







pop 

1 

.8661751 

.2621428 

3.30 

0.001 

.3523847 

1.379966 

__cons 

! 

.0253062 

.5403137 

0.05 

0.963 

-1.033689 

1.084301 

inflate 

1 







idade 

1 

.2882047 

.0998951 

2.89 

0.004 

.0924139 

.4839954 

leiseca 

1 

2.85907 

1.076625 

2.66 

0.008 

.7489239 

4.969217 

cons 

1 

-16.23734 

5.726858 

-2.84 

0.005 

-27.46178 

-5.012905 

/lnalpha 

1 

.2399887 

.3137446 

0.76 

0.444 

-.3749393 

.8549167 

alpha 

T- 

1 

1.271235 

.398843 



.687331 

2.351179 

Likelihood-ratio test of alpha=0: chibar2(01) = 

= 183.29 Pr>=chibar2 

= 0.0000 


Vuong test of zinb vs. standard negative binomial: z = 3.88 Pr>z = 0.0001 

Pr<z = 0.9999 

with AIC (Akaike) correction: z = 3.31 Pr>z = 0.0005 

Pr<z = 0.9995 

with BIC (Schwarz) correction: z = 2.57 Pr>z = 0.0051 

Pr<z = 0.9949 


Figura 14.84 Outputs do modelo de regressao inflacionado de zeros no Stata. 


Com base nesses outputs , podemos chegar as expressoes finais de Plogit { e de u., dadas por: 

1 

Plogit, - _(_i6,237+0,288./rfa<fe ( +2,859Jeiseca,) 

e 

_ (0,025+0,8 66.pop) 

u i ~ e 

Assim, um pesquisador curioso podera obter esses mesmos outputs por meio do arquivo Acidentes 
ZINB MaximaVer 0 ssimilhan 9 a.xls, fazendo uso da ferramenta Solver do Excel, conforme padrao tam- 
bem adotado ao longo do capitulo e do livro. Nesse arquivo, os criterios do Solver ja estao previamente 
definidos. 

Fazendo uso da expressao (14.36) e dos parametros estimados, podemos novamente calcular, de forma al- 
gebrica, a quantidade media esperada de acidentes de transito na semana para um municlpio com 700.000 
habitantes, com idade media de seus motoristas igual a 40 anos e que nao adota a lei seca apos as 22:00h, con- 
forme segue: 


u h 


inflate 


= 1- 


1 + g -[-16,237+0,288.(40)+2,859.(0)] 


I f [0,025+0,866.(0,700)]! =186 


O mesmo resultado tambem pode ser encontrado pelo pesquisador se digitado o seguinte comando, cujo 
output e apresentado na Figura 14.85: 


mfx, at(pop=0.7 idade=40 leiseca=0) 










780 Manual de Analise de Dados: Estatistica e Modelagem Multivariada com Excel®, SPSS® e Stata 


. mfx, at( pop=0.7 idade=40 leiseca=0) 
Marginal effects after zinb 


y = Predicted number of events (predict) 


= 

1.8638732 







variable | 

dy/dx 

Std. Err. 

z 

P>|z| 

[ 95% 

C.I. ] 

X 

pop | 

1.614441 

.29961 

5.39 

0.000 

1.02722 

2.20166 

.7 

idade | 

-.004798 

.00811 

-0.59 

0.554 

-.020686 

.01109 

40 

leiseca* j 

-.2387158 

.26031 

-0.92 

0.359 

-.74891 

.271479 

0 

(*) dy/dx is for discrete change of dummy variable 

from 0 to 

1 



Figura 14.85 Calculo da quantidade esperada de acidentes semanais para 
valores das variaveis explicativas - comando mfx. 


Em tese, a modelagem poderia ser, neste momento, finalizada. Entretanto, se houver tambem o interesse em 
estimar os parametros de um modelo ZIP, a fim apenas de compara-los com os obtidos pelo modelo ZINB, po- 
deremos digitar a seguinte sequencia de comandos: 

eststo: quietly zip acidentes pop, inf(idade leiseca) vuong 
prcounts lambda_inflate, plot 

eststo: quietly zinb acidentes pop, inf(idade leiseca) vuong 
prcounts u_inflate, plot 

esttab, scalars(11) se 

que gera os outputs apresentados na Figura 14.86. 


1 . eststo: 

quietly zip acidentes 

pop, inf(idade leiseca) vuong 

I (estl stored) 


. prcounts 

lambda_in£Late, plot 


. eststo: 

quietly zinb acidentes 

pop, inf(idade leiseca) vuong 

I (est2 stored) 


. prcounts 

u_in£Late, plot 


. esttab. 

scalars(11) se 



(1) 

(2) 


acidentes 

acidentes 

acidentes 



pop 

0.504*** 

0.866*** 


(0.0864) 

(0.262) 

cons 

0.933*** 

0.0253 


(0.199) 

(0.540) 

inflate 



idade 

0.225*** 

0.288** 


(0.0584) 

(0.0999) 

leiseca 

1.726** 

2.859** 


(0.553) 

(1.077) 

_cons 

-11.73*** 

-16.24** 


(3.030) 

(5.727) 

lnalpha 



cons 


0.240 



(0.314) 

N 

100 

100 

11 

-256.0 

-164.4 

II Standard errors in parentheses 


|| * p<0.05. 

** pCO.Ol, *** pCO.001 



Figura 14.86 Principals resultados obtidos nas estimates ZIP e ZINB. 

















Modelos de Regressao para Dados de Contagem: Poisson e Binomial Negativo 781 


Esses outputs consolidados permitem que verifiquemos, alem das diferengas entre as estimagoes dos parametros 
nos dois modelos, que o valor obtido do logaritmo da fungao de verossimilhanga (11, ou log likelihood) e 
consideravelmente maior para o modelo ZINB (modelo 2 na Figura 14.86), o que e mais um indicio de melhor 
adequagao deste sobre o modelo ZIP para os dados do nosso exemplo. 

Outra maneira de comparar as estimagoes dos modelos ZINB e ZIP e por meio da analise das distribuigoes 
de probabilidades observadas e previstas da ocorrencia de acidentes semanais para essas duas estimagoes, analo- 
gamente ao que discutimos ao longo do capitulo, fazendo uso das variaveis geradas na elaboragao dos comandos 
prcounts. Para tanto, devemos digitar o seguinte comando, que gerara o grafico da Figura 14.87: 

graph twoway (scatter u_inflateobeq u__inflatepreq lambda__inflatepreq 
u_inflateval, connect (1 1 1)) 

em que as variaveis u_injlatepreq e lambda_inflatepreq correspondem as probabilidades previstas de ocorrencia de 
0 a 9 acidentes obtidas, respectivamente, pelos modelos ZINB e ZIP. Alem disso, enquanto a variavel u_injlateo- 
beq corresponde as probabilidades observadas da variavel dependente e, portanto, apresenta a mesma distribuigao 
de probabilidades apresentada na Figura 14.77 para ate 9 acidentes de transito, a variavel u_inflateval apresenta os 
proprios valores de 0 a 9 que serao relacionados com as probabilidades observadas. 



• Observed Pr(y=k) 

-•--Predicted Pr(y=k) from zinb 

.<=>. Predicted Pr(y=k) from zip 


Figura 14.87 Distributes de probabilidades observadas e previstas de ocorrencia 
de acidentes de transito semanais para os modelos ZINB e ZIP. 

Por meio da analise do grafico da Figura 14.87, podemos verificar que a distribuigao estimada (prevista) de 
probabilidades do modelo ZINB se ajusta bem melhor a distribuigao observada do que a distribuigao estimada 
de probabilidades do modelo ZIP, para uma contagem de ate 9 acidentes de transito por semana. 

Alternativamente, assim como discutimos ao longo do capitulo, esse fato tambem pode ser verificado na apli- 
cagao do comando countf it, que oferece, alem dos valores das probabilidades observadas e previstas para cada 
contagem (de 0 a 9) da variavel dependente, os termos de erro resultantes da diferenga entre as probabilidades 
obtidas pelos modelos ZINB e ZIP Dessa forma, podemos digitar o seguinte comando: 

countfit acidentes pop, zip zinb noestimates 

que gera os outputs da Figura 14.88 e o grafico da Figura 14.89. 
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. countfit acidentes pop, zip zinb noestimates 
Comparison of Mean Observed and Predicted Count 

Maximum At Mean 

Model Difference Value IDiffl 


ZIP 

0.070 

1 

0.024 


ZINB 

0.016 

3 

0.006 


ZIP: 

Predicted and actual probabilities 


Count 

Actual 

Predicted 

|Diff| 

Pearson 

0 

0.580 

0.580 

0.000 

0.000 

1 

0.080 

0.010 

0.070 

47.385 

2 

0.060 

0.023 

0.037 

6.248 

3 

0.060 

0.035 

0.025 

1.839 

4 

0.040 

0.043 

0.003 

0.021 

5 

0.030 

0.046 

0.016 

0.566 

6 

0.020 

0.045 

0.025 

1.412 

7 

0.010 

0.042 

0.032 

2.441 

8 

0.020 

0.038 

0.018 

0.826 

9 

0.020 

0.033 

0.013 

0.495 

Sum 

0.920 

0.894 

0.239 

61.233 

ZINB: 

Predicted and actual probabilities 


Count 

Actual 

Predicted 

IDiffl 

Pearson 

0 

0.580 

0.580 

0.000 

0.000 

1 

0.080 

0.090 

0.010 

0.108 

2 

0.060 

0.059 

0.001 

0.001 

3 

0.060 

0.044 

0.016 

0.607 

4 

0.040 

0.034 

0.006 

0.113 

5 

0.030 

0.027 

0.003 

0.034 

6 

0.020 

0.022 

0.002 

0.018 

7 

0.010 

0.018 

0.008 

0.368 

8 

0.020 

0.015 

0.005 

0.149 

9 

0.020 

0.013 

0.007 

0.391 

Sum 

0.920 

0.902 

0.058 

1.789 


Tests and Fit Statistics 


BIC- 

570.596 

AIC= 

560.176 

Prefer 

Over 

BIC= 

AIC= 

391.416 

378.390 

dif= 

dif= 

179.180 

181.786 

ZINB 

ZINB 

ZIP 

ZIP 


Figura 14.88 Probabilidades observadas e prevlstas para cada contagem 
da variavel dependente e respectivos termos de erro. 


Note: positive deviations show underpredictions. 



1 2 3 4 5 6 7 8 

quantidade de acidentes de transito na ultima semana 

-±— ZIP -o— ZINB 


Figura 14.89 Termos de erro resultantes da diferen^a entre as probabilidades 
observadas e previstas (modelos ZINB e ZIP). 
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As Figuras 14.88 e 14.89 nos mostram, mais uma vez, que o ajuste do modelo ZINB e melhor do que o ajuste 
do modelo ZIP, pelas seguintes razoes: 

• enquanto a diferen^a maxima entre as probabilidades observadas e previstas para o modelo ZIP e, em mo¬ 
dulo, igual a 0,070, para o modelo ZINB e, em modulo, igual a 0,016. 

• a media dessas diferen^as e de 0,024 para o modelo ZIP e de 0,006 para o modelo ZINB. 

• o valor total de Pearson e mais baixo no modelo ZINB (1,789) do que no modelo ZIP (61,233). 

O grafico da Figura 14.89 permite que a analise comparativa entre os termos de erro gerados nos dois mo¬ 
delos seja elaborada de maneira visual, merecendo destaque o ajuste do modelo ZINB, em que a curva de erros 
e consistentemente mais proxima de zero. 

Assim como realizado anteriormente, podemos tambem comparar, graficamente, os valores previstos da quan- 
tidade media de acidentes de transito na semana obtidos pelos modelos ZIP e ZINB com aqueles que seriam 
obtidos pelos correspondentes modelos tradicionais de regressao dos tipos Poisson e binomial negativo (comando 
nbreg), sem a considera^ao das variaveis que influenciam apenas ocorrencia de zeros estruturais (variaveis idade 
e leiseca). Para tanto, podemos digitar a seguinte sequencia de comandos: 

quietly poisson acidentes pop 

predict lambda 

quietly nbreg acidentes pop 

predict u 

graph twoway mspline lambda_inf later ate pop | | mspline u_inflaterate 
pop || mspline lambda pop || mspline u pop||, legend(label(1 "ZIP") label(2 
"ZINB") label(3 "Poisson") label(4 "Binomial Negativo")) 

O grafico gerado e apresentado na Figura 14.90. 



Figura 14.90 Quantidade esperada de acidentes de transito por semana x populagao 
do municlpio (pop) para os modelos ZIP, ZINB, Poisson e binomial negativo. 
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Duas considera^oes podem ser feitas em rela^ao a esse grafico. A primeira diz respeito a variancia da quan- 
tidade prevista de acidentes semanais, que faz com que as curvas dos modelos ZINB e binomial negativo sejam 
mais alongadas a parte superior direita do grafico do que aquelas geradas pelos correspondentes modelos ZIP e 
Poisson, que nao conseguem capturar a existencia de superdispersao nos dados. Alem disso, podemos tambem ob- 
servar que os valores previstos gerados pelos modelos ZINB e ZIP ajustam-se de forma mais adequada a quanti- 
dade excessiva de zeros do que os valores previstos gerados pelos modelos Poisson e binomial negativo, visto que 
apresentam inclina^oes menores, principalmente para valores mais baixos da quantidade esperada de acidentes. 

Neste sentido, e importante que o pesquisador possua uma visao completa dos modelos de regressao para 
dados de contagem, a fim de que possa estimar, da maneira mais apropriada possivel, os parametros de seu mo- 
delo, considerando sempre a natureza e o comportamento da variavel dependente que representa o fenomeno 
em estudo. 




MODELOS DE REGRESSAO 
PARA DADOS EM PAIN EL 


Os modelos de regressao para dados em painel sao muito uteis quando se deseja estudar o comportamento de 
determinado fenomeno, representado pela variavel dependente, na presen^a de estruturas de dados agrupados, 
com medidas repetidas ou longitudinais. 

Enquanto nas estruturas de dados agrupados determinadas variaveis explicativas nao apresentam varia^ao 
entre as observances (que representam um nivel de analise) provenientes de determinado grupo (que representa 
outro nivel de analise), nas estruturas de dados com medidas repetidas existe, alem disso, a evolu^ao tem¬ 
poral, fato que permite ao pesquisador investigar as razoes individuals que possam levar cada uma das observances 
a apresentar comportamentos diferentes da variavel dependente, para um mesmo grupo ou para grupos distintos, 
ao longo do tempo. Por exemplo, determinados dados de uma escola que nao variam entre seus estudantes, como 
localizanao e porte, podem ser comparados com dados de outras escolas; e determinados dados de um estudante, 
como sexo e religiao, que nao variam ao longo do tempo, podem ser comparados com dados de outros estudan¬ 
tes, o que permite que sejam analisadas as diferentes influences sobre o comportamento da variavel dependente. 
Em todas essas situates (dados agrupados ou dados com medidas repetidas), os bancos de dados oferecem es¬ 
truturas aninhadas, a partir das quais podem ser estimados modelos hierarquicos, tambem conhecidos por 
modelos multinivel de regressao para dados em painel, a serem estudados no Capitulo 16. 

No entanto, antes disso, estudaremos, no Capitulo 15, os modelos longitudinais de regressao para da¬ 
dos em painel, que podem ser estimados a partir da existencia de bancos de dados cujas estruturas (longitudi¬ 
nais) oferecem uma logica dentro da qual as observances apresentam dados que se alteram ao longo do tempo, 
tanto para a variavel dependente, quanto para as variaveis explicativas, o que permite que o pesquisador estude 
o comportamento de diversas cross-sections ao longo do tempo. Em determinadas areas, o uso dos bancos de 
dados com estrutura longitudinal e mais frequente do que os com estrutura aninhada, razao pela qual os modelos 
longitudinais de regressao para dados em painel sao comumente chamados apenas de modelos de regressao 
para dados em painel, mesmo sabendo-se que esses englobam tambem os modelos de regressao multinivel. 

A Figura III.2.1 apresenta, para os modelos de regressao para dados em painel, as estruturas de dados agrupa¬ 
dos, com medidas repetidas e longitudinais e a rela^ao entre elas, o aninhamento nos dados e a evolu^ao temporal, 
como foco para o que sera estudado nos Capitulos 15 e 16. 

Nos tres capitulos anteriores, que compoem o que chamamos de Modelos Lineares Generalizados, estudamos 
os modelos de regressao simples e multipla, os modelos de regressao logistica e os modelos de regressao para dados de 
contagem, com uma abordagem prioritariamente de cross-section, ou seja, com exemplos de bancos de dados que repro- 
duzem, de certa forma, uma fotografia do momento em que sao coletados os dados. Em outras palavras, para modelos 
em cross-section , os individuos variam, porem o tempo e fixo. Alem disso, quando estudamos o fenomeno da 
autocorrela^ao dos residuos no Capitulo 12, os exemplos passam a trazer bancos de dados que reproduzem, de cer¬ 
ta forma, um filme da evolunao temporal de determinadas variaveis, porem para um unico individuo. Portanto, para 
modelos em serie temporal, os periodos de tempo variam, porem para um unico individuo. 

Mantendo essa logica, no Capitulo 15 estudaremos, por meio de estruturas de dados longitudinais, os mode¬ 
los longitudinais lineares de regressao para dados em painel, que correspondem aos modelos estudados 
no Capitulo 12, e os modelos longitudinais nao lineares de regressao para dados em painel, como os 
modelos logisticos e os modelos Poisson e binomial negativo, que correspondem, respectivamente, aos modelos 
estudados nos Capitulos 13 e 14. 
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Figura 111.2.1 Relagao entre Estruturas de Dados, Anlnhamento e Evolugao Temporal 
em Modelos de Regressao para Dados em Painel. 


Alem disso, fazendo uso dos conceitos estudados no Capitulo 12 em rela^ao aos modelos de regressao simples 
e multipla e dos conceitos estudados no Capitulo 15 sobre dados com evolu^ao temporal, teremos condi^oes, no 
Capitulo 16, de estudar, a partir de estruturas de dados agrupados, os modelos hierarquicos lineares de dois 
niveis, e a partir de estruturas de dados com medidas repetidas, os modelos hierarquicos lineares de tres 
niveis com medidas repetidas. No apendice do Capitulo 16 apresentaremos exemplos de modelos hierar¬ 
quicos nao lineares dos tipos logistico, Poisson e binomial negativo. 

Portanto, a estrutura adotada nos tres capitulos anteriores e a correspondence com as se^oes dos Capitulos 15 
e 16 encontram-se na Figura III.2.2. 



Figura 111.2.2 Estrutura dos Capitulos 12,13 e 14 e Correspondence com os Capitulos 15 e 16. 
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Em rela^ao especificamente aos modelos longitudinals lineares, a serem estudados no Capitulo 15, faremos 
distin^ao entre as estimates que podem ser utilizadas quando o banco de dados oferecer um painel curto, ou 
seja, apresentar uma quantidade de individuos superior a quantidade de perfodos, ou um painel longo, que e de- 
finido quando a quantidade de periodos exceder o numero de individuos na amostra. 

Seguindo a logica apresentada no estudo dos tres capitulos anteriores, podemos escrever a expressao geral de 
um modelo longitudinal de regressao para dados em painel da seguinte forma: 

% = +A-V 2 , +•••+ p k JC m (in.2.1) 

em que Tj e conhecido por fun^ao de liga^ao canonica, a representa os termos do intercepto, f3. (j = 1, 2, k) 
sao os coeficientes de cada variavel explicativa e correspondem aos parametros a serem estimados e X sao as va- 
riaveis explicativas (metricas ou dummies), que variam entre individuos e ao longo do tempo. Os subscritos i re- 
presentam cada um dos individuos da amostra (i — 1,2, n, em que n e o tamanho da amostra) e t, os periodos 
em que sao coletados os dados. 

O Quadro III.2.1 relaciona cada caso particular dos modelos longitudinals de regressao para dados em painel 
com a caracteristica da variavel dependente, a sua distribui^ao e a respectiva fun^ao de ligagao canonica. 


Quadro 111.2.1 Modelos longitudinals de regressao para dados em painel, caracteristicas 
da variavel dependente e fungoes de liga^ao canonica. 


Modelo Longitudinal de 



Fun^ao de Liga^ao 

Regressao para Dados em Painel 

Caracteristica da Variavel Dependente 

Distribui^ao 

Canonica ( 77 ) 

Linear 

Quantitativa 

Normal 

y 

Nao Linear Logistico 

Qualitativa com 2 Categorias {Dummy) 

Bernoulli 

Hw) 

Nao Linear Poisson 

Quantitativa com Valores Inteiros e Nao 
Negativos (Dados de Contagem) 

Poisson 

ln(A) 

Nao Linear Binomial Negativo 

Quantitativa com Valores Inteiros e Nao 
Negativos (Dados de Contagem) 

Poisson-Gama 

ln(«) 


Logo, para uma dada variavel dependente Y, que representa o fenomeno em estudo e que varia entre indi¬ 
viduos e ao longo do tempo, podemos especificar cada um dos modelos apresentados no Quadro III.2.1 da se¬ 
guinte maneira: 


Modelo Longitudinal Linear: 

Y il =a i + fi l .X w +/3 2 .X 2it +... + fi k .X kit 

em que Ye o valor esperado da variavel dependente Y. 

Modelo Longitudinal Nao Linear Logistico: 


(III.2.2) 


In 


' Pu ' 


v !-A, 


- a i + P v X lit +fi 2 .X 2it +... + fi k X klt 


(III.2.3) 


em que pea probabilidade de ocorrencia do evento de interesse no instante t para dado individuo i. 


Modelo Longitudinal Nao Linear Poisson: 

ln (^i() ~ a i + Pv X ut +Pi- X 2it +••• + Pk- X kit (III.2.4) 

em que Aeo valor esperado da quantidade de ocorrencias do fenomeno em estudo (que apresenta distribui^ao 
Poisson) no instante t para dado individuo i. 
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Modelo Longitudinal Nao Linear Binomial Negativo: 

In (u it ) = (Xf + /?j .X lit + /? 2 -X 2it +... + (3 k .X kit (II1.2.5) 

em que we o valor esperado da quantidade de ocorrencias do fenomeno em estudo (que apresenta distribui^ao 
Poisson-Gama) no instante t para dado individuo i. 

As estimates tradicionais elaboradas nos capitulos anteriores serao novamente utilizadas no Capitulo 15, e 
tais metodos, de forma analoga aos Modelos Lineares Generalizados, sao conhecidos, para os casos em que ha da¬ 
dos longitudinals, como GEE (Generalized Estimating Equations). Alem disso, em fun^ao das caracteristicas dos 
dados, tambem serao estimados parametros de modelos que podem levar em considera^ao a existencia de efeitos 
fixos ou de efeitos aleatorios nos termos do intercepto, conforme discutiremos ao longo do mesmo capitulo. 
Logo, para cada um dos modelos propostos, serao estimados parametros por meio dos metodos GEE, por efeitos 
fixos ou por efeitos aleatorios. A Figura III.2.3 apresenta essa logica, a ser utilizada no Capitulol5. 



Figura 111.2.3 Estimates de Parametros em Modelos Longitudinals de Regressao para Dados em Painel. 


Ja em rela^ao aos modelos de regressao multimvel, podemos especificar cada um dos modelos que serao es- 
tudados no Capitulo 16 da seguinte maneira: 


Modelo Hierarquico Linear de Dois Niveis (Dados Agrupados): 

2 

Nivel 1: Yy = b§j + ^ b q j.X qi j + r q 

q =1 


Nivel 2: 



(111.2.6) 

(111.2.7) 


em que os coeficientes b representam os coeficientes do mvel 1, (q - 0,1,..., Q) e uma q-e sima variavel ex- 
plicativa de mvel 1 com dados para os individuos i - 1, ..., n pertencentes aos grupos j- 1, ...,J, os coeficientes 7 
representam os parametros do mvel 2 , IV (s = 1,..., S ) e uma s-esima variavel explicativa de mvel 2 com dados 
para os grupos (porem invariante em i para determinado grupo j ), r representa os termos de erro do mvel 1 e u. 
os termos de erro do nivel 2 . 


Modelo Hierarquico Linear de Tres Niveis com Medidas Repetidas: 


Nivel 1: 


Ytjk = n 0jk + K \jk ■ periodo jk + e tjk 
Q P 

ftpjk ~ bpOk Y ^ bpqk -Xqjk + r pjk 
9=1 


(III.2.8) 


Nivel 2: 


(III.2.9) 
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N1 ™' 3: V = ’'mo +1 w ' + "m* <IIL2 I0) 

5=l 

em que a variavel explicativa pmWo do nivel 1 representa a medida repetida (variavel temporal em que t— 1 , 

T periodos), os coeficientes 7t p (p = 0 para intercepto ep = 1 para inclina^ao) representam os parametros do nivel 
1 , os coeficientes fe representam os parametros do nivel 2, X (4 = 0, 1,..., Q^) e uma g-esima variavel explicati- 
va de nivel 2 com dados para os individuos pertencentes aos grupos (porem invariante em t para determinado 
individuo j), os coeficientes y representam os parametros do nivel 3, IV (s = 1, ..., S ^ e uma 5-esima variavel 
explicativa de nivel 3 com dados para os grupos (porem invariante em t e em j para determinado grupo k ), e tjk 
representa os termos de erro do nivel 1, r. fe os termos de erro do nivel 2 e u k os termos de erro do nivel 3. 

Note, para ambos os casos, que existem variaveis explicativas distintas em cada nivel em decorrencia de nao 
haver alteragoes em seus dados em niveis inferiores, o que caracteriza o aninhamento. Esse fato representa a 
principal diferen 9 a entre os modelos com estruturas aninhadas e os modelos com estruturas lon¬ 
gitudinals. 

Tambem podem ser definidos modelos hierarquicos nao lineares caso a variavel dependente seja categorica ou 
apresentar dados de contagem, conforme estudaremos no apendice do Capitulo 16. Nessas situates, as fun^oes 
de liga^ao canonica referentes a variavel dependente serao as mesmas daquelas apresentadas no Quadro III.2.1 
para os modelos longitudinals. 

Os Capitulos 15 e 16 estao estruturados dentro de uma mesma logica de apresenta^ao em que, inicialmente, 
sao introduzidos os conceitos pertinentes a cada modelo. Dada a complexidade computacional, no Capitulo 15 
os parametros dos modelos sao estimados por meio do uso do software Stata. Entretanto, no Capitulo 16 opta- 
mos por elaborar as modelagens multinivel em Stata e em SPSS, fato que torna o pesquisador apto a comparar os 
outputs gerados por ambos os softwares, visto que e consideravelmente escassa a literatura que permite esta analise, 
principalmente com base em modelagens elaboradas em SPSS. Ao termino dos capitulos, sao propostos exercicios 
complementares, cujas respostas estao disponibilizadas no final do livro. 




CAPITULO 


15 


Modelos Longitudinals de Regressao 
para Dados em Painel 


0 necessario, mais dificil e mais importante no musica e o ritmo. 

Wolfgang Amadeus Mozart 


Ao final deste capitulo, voce tera condigaes de: 

• Estabelecer as circunstancias a partir das quais os modelos longitudinals de regressao para dados em 
painel podem ser utilizados. 

• Saber interpretar a decomposigao de variancia das variaveis inseridas em urn modelo longitudinal de 
regressao para dados em painel. 

• Compreender os conceitos relativos a estimates por GEE , efeitos fixos e efeitos aleatorios em modelos 
longitudinals de regressao para dados em painel. 

' • Saber diferenciar urn modelo longitudinal linear de urn modelo longitudinal nao linear para dados em 
painel. 

• Entender os diversos tipos existentes de estimagao dos parametros de modelos longitudinals lineares para 
dados em painel curto e longo. 

• Entender os diversos tipos existentes de estimagao dos parametros de modelos longitudinals nao lineares 
do tipo logistico, Poisson ou binomial negativo para dados em painel. 

• Elaborar os testes estatisticos pertinentes aos modelos longitudinals de regressao para dados em painel. 

• Estimar modelos longitudinals lineares e nao lineares de regressao para dados em painel no Stata Statistical 
Software® e interpretar seus resultados. 

15.1. INTRODUtAO 

Os modelos longitudinals de regressao para dados em painel sao cada vez mais utilizados em diversas 
areas do conhecimento, visto que muitos dados de individuos (pessoas, empresas, municipios, estados ou paises, 
por exemplo) estao dispomveis nao para um unico instante de tempo (uma unica cross-section ), mas em varios 
periodos de tempo (varias cross-sections , como semanas, meses, trimestres ou anos, por exemplo). Neste sentido, 
somos naturalmente convidados a estimar modelos para o estudo de fenomenos que sofrem influencia das di- 
ferenqas entre os individuos e da propria evoluqao temporal e, devido ao recente e profundo desenvolvimento 
computacional dos softwares de modelagem, podemos verificar uma verdadeira explosao da utilizaqao de tais 
modelos, com pesquisadores que apresentam cada vez mais condi^oes de investigar comportamentos e tenden- 
cia em estruturas mais complexas de bancos de dados. Como a frequencia de uso dos modelos longitudinais 
de regressao e superior aquela verificada para os modelos multimvel, a serem estudados no proximo capitulo, e 
comum que pesquisadores utilizem a nomenclatura modelos de regressao para dados em painel para se 
referirem apenas aos primeiros. Obedecendo a este criterio, sempre que utilizarmos o termo “painel” no 
presente capitulo, estaremos fazendo men 9 ao unicamente a dados longitudinais. 

A principal vantagem da utilizaqao de modelos longitudinais de regressao consiste em possibilitar ao pesquisa- 
dor o estudo das diferenqas existentes em determinado fenomeno entre individuos em cada cross-section , alem de 
permitir a analise da evoluqao temporal deste mesmo fenomeno para cada individuo. E por isso que os modelos 
longitudinais tambem sao conhecidos por modelos com muitas cross-sections ao longo do tempo. 

Alem disso, segundo Marques (2000), os modelos longitudinais de regressao providenciam maior quantidade 
de informaqao, maior variabilidade dos dados, menor multicolinearidade entre as variaveis, maior numero de graus 




792 Manual de Analise de Dados: Estatfstica e Modelagem Multivariada com Excel®, SPSS® e Stata* 


de liberdade e maior eficiencia quando da estima^ao de seus parametros. A inclusao da dimensao em cross-section , 
num estudo temporal, confere maior variabilidade aos dados, na medida em que a utiliza^ao de dados agregados 
resulta em series mais suaves do que as series individuais que lhes servem de base. Este aumento na variabilidade 
dos dados pode contribuir para a redu^ao da multicolinearidade eventualmente existente entre variaveis. 

Imagine, inicialmente, que um grupo de pesquisadores tenha interesse em estudar como as taxas diarias de re- 
torno de diversos ativos financeiros comportam-se em rela^ao as taxas de mercado, ou como os custos operacio- 
nais de diversas empresas comportam-se mensalmente a medida que os respectivos parques fabris aumentam suas 
capacidades produtivas, ou, ainda, como os pre^os medios dos imoveis residenciais em diversos paises tern se com- 
portado frente a oscila^oes de variaveis macroeconomicas, como taxa de juros ou renda media familiar, ao longo 
dos anos. Note, em todos estes exemplos, que as amostras possuem diversos individuos (ativos financeiros, empresas 
ou paises) monitorados em mais de um periodo de tempo (dias, meses ou anos), e o fenomeno principal sobre o 
qual ha o interesse de estudo e representado por determinada variavel metrica, ou quantitativa (taxa de retorno, 
custo ou pre^o medio de imoveis). Para estas situates, podem ser estimados modelos longitudinals lineares. 

Imagine que um segundo grupo de pesquisadores tenha interesse em estudar a evolu^ao mensal da probabilidade 
de ocorrencia de infarto por parte de executivos do mercado financeiro, com base na evolu^ao de suas caracteristicas 
fisicas, como peso e cintura abdominal, e de seus habitos de saude, como frequencia de atividades fisicas e ingestao de 
gordura. Enquanto isso, um terceiro grupo de pesquisadores deseja estudar a evolu^ao trimestral da probabilidade de 
default de companhias abertas com base no comportamento de seus indicadores contabeis e financeiros. Mesmo que 
as amostras destes dois ultimos exemplos tambem possuam diversos individuos (executivos ou companhias abertas) 
monitorados ao longo de varios periodos de tempo (meses ou trimestres), note agora que as variaveis dependentes 
(ocorrencia de infarto ou default) sao variaveis qualitativas dicotomicas cujos eventos de interesse podem ou nao 
ocorrer e, portanto, podem ser estimados, nestas situates, modelos longitudinals nao lineares. 

Por fim, imagine que, enquanto um quarto grupo de pesquisadores tenha interesse em estudar como se com- 
porta, ao longo dos anos, a quantidade de vezes que pacientes vao ao medico por ano, em fun^ao de altera- 
$6es no estado de humor de cada individuo e de eventuais mudan^as nas politicas de reembolso de seus pia¬ 
nos de saude, um quinto e ultimo grupo de pesquisadores deseja estudar a quantidade de ofertas publicas de 
a^oes que sao realizadas em paises emergentes, tambem ao longo dos anos, com base na evolu^ao de seus indicadores 
economicos, como infla^ao, produto interno bruto e investimento estrangeiro. Note, nestes dois ultimos exemplos, 
que as amostras tambem trazem dados provenientes de diversos individuos (pacientes ou paises emergentes) ao lon¬ 
go de muitos periodos de tempo (anos). Porem, como a quantidade anual de visitas ao medico ou a quantidade de 
ofertas publicas de a^oes, que correspondem, respectivamente, ao fenomeno a ser estudado em cada caso, oferecem 
dados quantitativos que assumem valores discretos positivos e restritos a determinado numero de ocorrencias, ou 
seja, sao dados de contagem, podem ser estimados modelos longitudinais nao lineares dos tipos Poisson ou 
binomial negativo. A escolha do tipo mais adequado de modelagem, nestas situates, deve sempre ser feita com 
base na existencia ou nao do fenomeno de superdispersao nos dados, conforme estudado no Capitulo 14. 

Ao contrario dos capitulos anteriores, neste capitulo nao serao elaboradas modelagens em Excel, uma vez que 
tornaria o texto repetitivo, ja que muitas estimates fazem uso dos metodos ja estudados, aplicados diretamente 
sobre os dados ou apos algum tratamento especifico, como veremos adiante. Alem disso, acreditamos que o Stata 
seja o software mais adequado para a estima^ao de modelos de regressao para dados em painel, razao pela qual 
restringiremos as analises aos resultados das estimates elaboradas apenas neste pacote estatistico. 

Neste capitulo, portanto, trataremos dos modelos longitudinais de regressao para dados em painel, com os se- 
guintes objetivos: (1) introduzir os conceitos sobre dados longitudinais; (2) definir o tipo de modelo a ser estima- 
do em fun^ao das caracteristicas dos dados; (3) estimar parametros por meio de diversos metodos em Stata; (4) in¬ 
terpretar os resultados obtidos por meio dos diversos tipos de estimates existentes para os modelos lineares e nao 
lineares; e (5) definir a estima^ao mais adequada para efeitos de diagnostico e previsao em cada um dos casos estu¬ 
dados. Inicialmente, serao introduzidos os principals conceitos inerentes a cada modelagem. Na sequencia, serao 
apresentados os procedimentos para a elabora^ao dos modelos propriamente ditos no Stata Statistical Software®. 
A reprodu^ao de suas imagens neste capitulo tern autoriza^ao da StataCorp LP®. 

15.2. DADOS LONGITUDINAIS E DECOMPOSING DE VARlANCIA 

Os modelos longitudinais de regressao tern como objetivo principal estudar o comportamento de determi- 
nada variavel dependente quantitativa ou qualitativa (Y), que representa o fenomeno de interesse, com base no 
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comportamento de variaveis explicativas, cujas altera^oes podem ocorrer tanto entre individuos num mesmo 
instante de tempo (< cross-section ), quanto ao longo do tempo. 

Imagine, de maneira geral, uma base com dados provenientes de n individuos, e que cada um deles apresen- 
ta dados para uma quantidade T de periodos nao necessariamente iguais para todos os individuos. Assim, por 
exemplo, enquanto a quantidade de periodos em que ha dados para o individuo 1 e igual a T v a quantidade de 
periodos em que ha dados para o individuo 2 e igual a T, podendo T 2 ser ou nao igual a T v Mais do que isso, e 
possivel inclusive que determinado individuo oferega dados para apenas um unico periodo de tempo (entretan- 
to, isso nao poderia ocorrer para todos os individuos no mesmo periodo de tempo, uma vez que o painel seria 
descaracterizado pela presen^a de apenas uma unica cross-section). 

ATabela 15.1 apresenta o modelo geral de um banco de dados longitudinals. 


Tabela 15.1 Modelo geral de um banco de dados longitudinals. 


Observafao 

Individuo i 

Periodo t 


X u , 

X m 

... 

x* 

1 

1 

<n 


X n,u 

X 21, u 


X M<„ 

2 

1 

'21 


X n< 21 

X H* 


X m< 2 , 
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Y m 

^llTj 

X 1\T 1 


X kl T x 
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hi 

Y 2' t2 

x . 2 „ 2 

X llt l2 


X k2, i2 


2 

hi 

Y >,2 

^ 12t 22 

X 22, 22 


X *2, 22 










2 

T 2 

Y it 2 

X 11T 2 

X iit 2 


X k2T2 


3 


y 3-,3 

X »,3 

X 13t u 


X k3t l3 


3 


y 3, 23 

X «* 

X ^ 


X M‘n 










3 


Y 

3T 3 

^13T 3 

X 13T 3 


X k3 r 3 


n 


Y 

*hn 

x 1 «„, 

X 2tic, n 




n 

*2n 

Y 

nt 2 n 

x .-*. 

^ lnt2n 


X knt 2n 









N 

n 

T 

Y r 

nT n 


X -„ 


X knT„ 


Por meio do modelo geral de banco de dados longitudinals apresentado na Tabela 15.1, podemos verificar 
que pode existir uma quantidade diferente de periodos para cada um dos n individuos da amostra, e que cada 
individuo apresenta dados correspondentes as variaveis Y, X u , X , ..., X fa em cada um dos respectivos periodos 
de tempo. Desta forma, enquanto o termo Y lfji , por exemplo, refere-se ao dado (quantitativo ou qualitativo) que 
assume a variavel dependente Y para o individuo 1 no periodo t — 1, o termo X 22T2 corresponde ao valor que as¬ 
sume a variavel explicativa X 2 para o individuo 2 no instante de tempo t — T 2 (periodo final para o individuo 2). 

Se T x — T 2 — T 3 = T, o painel sera considerado balanceado, e a quantidade total de observances no banco 
de dados (N) sera igual a n.T. Caso contrario, a quantidade de observances no banco de dados sera igual a ^ T. 

, e o painel sera considerado desbalanceado. 

Como o nosso objetivo e estimar os parametros de um modelo que considere Y em funnao de X Ut , X 2it ,..., 
X kh , podemos definir a expressao geral de um modelo longitudinal de regressao da seguinte forma: 

Y tt = a i +b v X Ut +b 2 .X 2it + ... + b k .X kil +£ il (15.1) 
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em que Y representa o fenomeno em estudo (variavel dependente que varia entre individuos e ao longo do 
tempo), a. representa o intercepto para cada individuo e pode assumir efeitos fixos ou aleatorios, como veremos 
adiante, b. (j = 1,2, k) sao os coeficientes de cada variavel, X. sao as variaveis explicativas, que tambem variam 
entre individuos e ao longo do tempo, e £ representa os termos de erro idiossincratico. Os subscritos i repre- 
sentam cada um dos individuos da amostra em analise (i = 1, 2,..., ft, em que n e a quantidade de individuos na 
amostra) e os subscritos t representam os periodos em que sao coletados os dados. 

Mantendo o padrao adotado ao longo do livro, podemos escrever a expressao (15.1) com base no valor 
esperado (estimativa) da variavel dependente, para cada observa^ao i em cada periodo de tempo t, conforme 
segue: 

Y u = a, + p v x til + p 2 .X 2it +... + P k .X kil (15.2) 

Caso a variavel Y seja quantitativa, podemos considerar a expressao (15.2) como sendo a de um modelo 
longitudinal linear de regressao. Entretanto, caso a variavel Y seja qualitativa dicotomica, teremos um mo¬ 
delo longitudinal logistico (modelo longitudinal nao linear), e a expressao (15.2) podera ser escrita da 
seguinte forma: 

In (chance Yu= ,) = «, + p v X Ut + p 2 .X 2it +... + p k .X kit (15.3) 

Entretanto, caso a variavel Y apresente dados quantitativos que assumem valores discretos positivos e restritos 
a determinado numero de ocorrencias, ou seja, dados de contagem, teremos um modelo longitudinal Poisson 
ou um modelo longitudinal binomial negativo (modelos longitudinals nao lineares), e a expressao 
(15.2) podera ser escrita de acordo como segue: 

In (n) = a i +p l .X Ut +p 2 .X 2il +... + p h .X kn (15.4) 

O nosso objetivo, portanto, e estimar os parametros a. : e r (j = 1,2,..., fe) por meio de determinado me- 
todo, a fim de que possa ser compreendido o comportamento do fenomeno em estudo, representado pela 
variavel dependente Y, entre individuos e ao longo do tempo, em fun^ao do comportamento das variaveis 
explicativas X.. 

Como a variavel dependente e as variaveis explicativas podem ter, simultaneamente, seus valores alterados ao 
longo do tempo e entre individuos, e de fundamental importancia que sejam estudadas, antes mesmo da elabo¬ 
rate de qualquer estima^ao, as intensidades das varia^oes que ocorrem temporalmente para cada individuo e 
que tambem ocorrem em cada uma das cross-sections (varia^ao entre individuos para cada instante de tempo), uma 
vez que, enquanto as varia^oes temporais podem indicar a existencia de mudan^as bruscas no comportamento 
das variaveis em cada individuo, as varia^oes em cada cross-section podem indicar a existencia de comportamentos 
discrepantes das variaveis entre individuos. 

Dessa forma, a varia^ao ao longo do tempo para dado individuo e conhecida por varia^ao within e a varia- 
£ao entre individuos e chamada de varia^ao between. A varia^ao overall (geral), portanto, pode ser definida co¬ 
mo sendo a discrepancia que existe em determinado dado de um individuo num instante de tempo em rela^ao 
a todos os demais dados daquela mesma variavel para a base completa, e pode ser decomposta nas varia^oes ao 
longo do tempo para cada individuo ( within) e entre individuos (between). 

De acordo com Cameron e Trivedi (2009) e Favero (2013), podemos escrever, com base em expressoes de 
variancia e tomando como exemplo determinada variavel X, que: 

• Varia^ao within: 


• Varia^ao between: 


Var 


Xw 


£,(*.,-*,) 2 


ft — 1 


V aY Xh ~ 


(15.5) 


(15.6) 
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• Varia^ao overall (geral): 


Z.fo.-x ) 1 
' (!>.)- 


(15.7) 


em que X representa o dado da variavel X para o individuo i no instante de tempo t, X. a media da variavel X 
para cada individuo i e X a media geral da variavel X no banco de dados. Alem disso, n representa a quantidade 
total de individuos e ^ ^ corresponde a quantidade total de observances na amostra. Se o banco de dados em 
painel for balanceado, podemos substituir o termo por ( n.T) nas expressoes (15.5) e (15.7). 

Imagine uma base que traz dados de determinada variavel X para tres individuos (A, B e C), ao lon- 
go de tres periodos de tempo. O painel, balanceado e com dados meramente ilustrativos, encontra-se na 
Tabela 15.2. Com base nestes dados, iremos, na mesma tabela, calcular as variancias within, between e overall 
da variavel X. 


Tabela 15.2 Calculo das variancias within, between e overall- exemplo 1. 


N 

Individuo i 

Periodo t 

X* 

Media por 
individuo i 

Termo within 

(x lt -x t ) 2 

Termo between 
(X..-X) 2 

Termo overall 

(x.,-x ) 2 

1 

A 

1 

2,0 

X A =4,000 

4,000 

0,004 

4,271 

2 

A 

2 

4,0 

0,000 

0,004 

3 

A 

3 

6,0 

4,000 

3,738 

4 

B 

1 

2,1 

X B =4,133 

4,134 

0,004 

3,868 

5 

B 

2 

3,8 

0,111 

0,071 

6 

B 

3 

6,5 

5,601 

5,921 

7 

C 

1 

1,7 

X c = 4,067 

5,601 

0,000 

5,601 

8 

C 

2 

3,5 

0,321 

0,321 

9 

C 

3 

7,0 

8,604 

8,604 





X = 4,067 

l,(x„-x) 2 

x,(*.-*) 2 

2U*.-*) a 






= 32,373 

= 0,008 

= 32,400 






Var xu, = 32,373/8 

Var xb = 0,008/2 

Var xo = 32,400/8 






= 4,047 

= 0,004 

= 4,050 


Os calculos das variancias within, between e overall foram feitos com base nas expressoes (15.5), (15.6) e (15.7), 
respectivamente. Podemos verificar que a variancia within e maior do que a variancia between , o que indica, para a 
variavel X, que nao existem comportamentos muito discrepantes, ao longo do tempo, entre individuos (between). 
A varia^ao maior ocorre para cada individuo (efeito within) ao longo do tempo. Isso fica bastante claro quando 
analisamos o grafico da Figura 15.1. 

Por meio deste grafico, podemos verificar, de fato, que os comportamentos dos tres individuos (A, B e 
C) nao sao muito diferentes em cada cross-section (periodo) analisada, porem os valores de X sao bastante 
modificados para cada individuo com o decorrer do tempo. Assim, os parametros a. da expressao (15.1) 
podem ser correlacionados com a variavel explicativa X, fato que e considerado quando da estima^ao de um 

modelo com efeitos fixos. 

Como o painel da Tabela 15.2 e balanceado, um pesquisador mais interessado podera verificar que a variancia 
between da variavel temporal t e igual a zero. Isso ocorre pelo fato de que todos os individuos oferecem dados para 
os mesmos periodos, nao havendo discrepancias na quantidade de periodos entre individuos. 

Imagine agora outra base que traz dados da variavel X para tres novos individuos (D, E e F) ao longo dos mes¬ 
mos tres periodos de tempo. O painel, tambem balanceado, encontra-se na Tabela 15.3. 

Nesta nova situa^ao, a variancia between e maior do que a variancia within, o que indica que, embora existam 
altera^oes em X ao longo do tempo para cada individuo (within), estas sao consideravelmente menores do que 
as mudan^as de comportamento de X entre individuos para cada cross-section (efeito between ). Isso pode ser agora 
observado por meio do grafico da Figura 15.2. 
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Figura 15.1 Paine! balanceado com varia^ao within preponderante. 


Tabela 15.3 Calcuio das variances within, between e overall - exemplo 2. 



Individuo i I Periodo t 


Media por 
individuo i 


Termo within 
(Xu-xX 


Termo between 

( x,-xf 


Termo overall 

(x u -xf 


=4,333 


= 1,333 


=3,000 


X =2,889 




Var Xw = 1,333/8 


= 4,519 

Var xb = 4,519/2 


= 14,889 
Var Xo = 14,88 
= 1,861 



IfTslFsl 


MsIiWUft] 




I CCJ •!•] ifi raTsi 
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Por meio do grafico da Figura 15.2, podemos verificar, de fato, que os comportamentos dos tres individuos 
(D, E e F) sao bastante diferentes em cada uma das tres cross-sections, mesmo que, para cada um deles, os valores 
de X nao se alterem consideravelmente com o decorrer do tempo. Nesta situa^ao, o parametro a e os termos de 
erro idiossincratico £ da expressao (15.1) sao independentes, fato que e considerado quando da estimagao de um 

modelo com efeitos aleatorios. 

Conforme apresentado por meio da expressao (15.1), um modelo longitudinal de regressao pode considerar 
diversas variaveis explicativas X. (j = 1, 2, ..., k) simultaneamente, de modo que o estudo sobre a decomposigao 
de variancia de cada uma delas e de fundamental importancia para que se estabelega um diagnostico preliminar 
acerca dos efeitos que serao considerados quando da estima^ao propriamente dita dos parametros do modelo. 

15.3. MODELOS LONGITUDINAIS LINEARES 

Conforme discutimos, quando os dados de uma base variam entre individuos e ao longo do tempo, e o feno- 
meno principal sobre o qual ha o interesse de estudo e representado por uma variavel dependente quantitativa, 
faz sentido a estima^ao de modelos longitudinals lineares de regressao. 

Enquanto na segao 15.3.1 serao discutidas as principals estimates pertinentes aos modelos longitudinals 
de regressao para dados em painel curto (quantidade de individuos superior a quantidade de periodos), na se- 
gao 15.3.2 serao discutidas as principals estimates pertinentes aos modelos longitudinals para dados em painel 
longo (quantidade de periodos superior a quantidade de individuos). Em ambas as situagoes, sera dado destaque 
para as estimates dos modelos por GEE, por efeitos fixos e por efeitos aleatorios. 


15.3.1. Estima^ao de modelos longitudinals lineares de regressao para dados em painel curto 

A primeira e mais simples estima^ao de um modelo longitudinal de regressao considera a base de dados como 
sendo uma grande cross-section e,por meio do metodo de minimos quadrados ordinarios estudado no Capitulo 12 
(MQO, ou OLS — Ordinary Least Squares), estima os parametros do modelo proposto. No caso dos modelos lon¬ 
gitudinals de regressao, esta estima^ao e conhecida por POLS, ou seja, Pooled Ordinary Least Squares, por consi¬ 
derar que a base de dados esteja mesclada. Com base na expressao (15.1), o modelo estimado pelo metodo POLS 
apresenta a seguinte expressao: 


Y it -a + b v X Ut + b 2 .X 2il +... + b k .X kit + u u 


(15.8) 


Segundo Cameron e Trivedi (2009), embora a estima^ao POLS suponha que todas as variaveis explicati¬ 
vas sejam exogenas e que os termos de erro sejam representados por u (mesma nomenclatura u utilizada no 
Capitulo 12), a inferencia requer que haja o controle da autocorrela^ao destes termos de erro u. t para dado in- 
dividuo (efeito within), por meio da utiliza^ao de erros-padrao robustos com agrupamento no nivel do 
proprio individuo. Mesmo que esta estima^ao nao leve em considera^ao a existencia de efeitos fixos ou alea¬ 
torios, este metodo e bastante utilizado e aplicado. 

Ressalta-se que a estima^ao POLS insere-se dentro do que e conhecido por GEE (Generalized Estimating 
Equations), conforme poderemos verificar quando da estimagao dos parametros do modelo na se^ao 15.3.1.1. 

Ja o modelo longitudinal de regressao com efeitos fixos, que se baseia na expressao (15.1), considera a exis¬ 
tencia de efeitos individuals a. que representam as heterogeneidades entre os individuos e capturam as suas dife- 
ren^as invariantes no tempo, ou seja, as diferen^as nos interceptos (nao nas inclinagoes). Os estimadores dos pa¬ 
rametros b.(j= 1,2,..., k) de um modelo longitudinal de regressao com efeitos fixos, de acordo com Cameron 
e Trivedi (2009) e Favero (2013), sao obtidos pela elimina^ao dos efeitos individuals a por meio da elaboragao 
de uma transforma^ao within aplicada pela diferencia^ao de medias. Desta maneira, uma estima^ao within faz 
com que os dados sejam diferenciados em torno da media quando da modelagem e, como consequencia, o pa¬ 
rametro de determinada variavel que apresentar dados que nao sejam alterados ao longo do tempo nao podera 
ser estimado. 

Os efeitos individuals a. da expressao (15.1) sao eliminados quando, de seus termos, forem subtraidos os ter¬ 
mos da seguinte expressao: 


Y i - b V X U + b 2- X 2i + ••• + b k- X U + £ , 


( 15 . 9 ) 
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que corresponde a expressao de um modelo de regressao que leva em considera^ao os dados medios de cada in¬ 
dividuo nos seus respectivos periodos de tempo. Logo, o modelo com estimado within, tambem conhecido 
por modelo de diferen^as de medias, pode ser escrito como: 

(n -^) = b 1 \X ht -X u ) + b 2 \X 2it -X 2: ) + ... + b k .(X kil -X u ) + {e tt -£ i ) (15.10) 

A estima^ao por efeitos fixos (estima^ao within) pode ser agora obtida por meio da aplica^ao do metodo 
MQO a expressao (15.10). Segundo Cameron e Trivedi (2009) e Favero (2013), o metodo MQO oferece es- 
timadores dos parametros b. (j — 1, 2, fe) consistentes pelo fato de a. ter sido eliminado, mesmo que este seja 
correlacionado com uma ou mais variaveis X.. t (j — 1, 2,..., fe), fato que e considerado na estima^ao de um mo¬ 
delo com efeitos fixos. De acordo com Wooldridge (2010), na estima^ao por efeitos fixos, o parametro de uma 
variavel explicativa com baixa varia^ao within sera imprecisamente estimado. Mais do que isso, o parametro de 
determinada variavel que nao apresentar qualquer altera^ao em seus dados ao longo do tempo para cada indivi- 
duo, ou seja, que nao apresentar varia^ao within, nao sera sequer identificado. 

Conforme discutimos quando da apresentagao da Figura 15.1, os parametros a. podem ser correlacionados 
com uma ou mais variaveis explicativas X.. t (j — 1, 2,..., k), o que faz com que seja permitida uma forma limitada 
de endogeneidade. Por outro lado, pressupoe-se que uma ou mais variaveis X (j = 1, 2,..., fe) nao sejam corre- 
lacionadas com os termos de erro idiossincratico £. Entretanto, caso estes sejam heterocedasticos, deve-se partir 
para uma estima^ao por efeitos fixos que considere a existencia de erros-padrao robustos com agrupamen- 
to por individuo. 

A estima^ao between , por outro lado, considera somente a varia^ao existente entre individuos e, desta forma, 
aplica, quando da modelagem, o metodo MQO ao seguinte modelo: 

Y=a + b v X u + b 2 .X 2i +... + b k .X kl + (a,. - a + e t ) (15.11) 

Por levar em considera^ao apenas as varia^oes de cross-sections nos dados, o parametro de determinada variavel 
que nao se altera entre individuos para cada instante de tempo nao podera ser estimado. Alem disso, a consisten¬ 
cy dos estimadores dos parametros b. (j = 1, 2,..., fe) requer que os termos de erro da expressao (15.11), ou seja, 

— a + £.), nao sejam correlacionados com uma ou mais variaveis X (j — 1, 2,..., fe). Segundo Hsiao (2003) e 
Cameron e Trivedi (2009), esta estima^ao e raramente utilizada pelo fato de os estimadores obtidos pelos modelos 
POLS ou com efeitos aleatorios acabarem sendo mais eficientes. 

A estimado por efeitos aleatorios de determinado modelo longitudinal de regressao e definida com 
base em um metodo conhecido por Minimos Quadrados Generalizados (MQG, ou, em ingles, GLS - 
Generalized Least Squares). A expressao do modelo estimado por efeitos aleatorios, definida a partir da expressao 
(15.1), pode ser escrita como: 

Y u =b l .X lit +b 2 .X 2it + ... + b k .X kit +(a i + e it ) (15.12) 

em que o termo a. captura o comportamento dos efeitos individual entre individuos e apresenta media a e va- 
riancia C 2 a (variancia between), e £ corresponde ao comportamento dos termos de erro idiossincratico com me¬ 
dia zero e variancia O 2 (variancia within), ou seja, representa as varia^oes do erro “dentro” do proprio individuo. 
Os termos de erro do modelo sao, portanto: 

u n = a i+ £ it (15.13) 

que sao correlacionados ao longo do tempo t para dado individuo i. Logo, conforme discutem Cameron e Trivedi 
(2009) e Favero et al. (2014), a estima^ao por efeitos aleatorios considera simultaneamente as varia^oes within e 
between nos dados e, desta forma, os parametros do modelo apresentado na expressao (15.12) podem ser estimados 
apos a elabora^ao de uma transforma^ao linear, de acordo como segue: 

(Yu-orf) = 4 1 - 0 ,)+- e,.x u )+b 2 .(x 2it - e r x 2 ,)+...+b k .(x ktl - e r x ki ) 

+a r (l-d i )+(e il -d i £ i ) 


(15.14) 
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em que o parametro de transformagao 0. apresenta a seguinte expressao: 


0 . = 1 - 


2 

e 




(15.15) 


Portanto, podemos comprovar que as demais estimates sao casos particulares da estimagao por efeitos ale¬ 
atorios, uma vez que, se 0. — 0, teremos uma estimagao POLS, e se 6.— 1, teremos uma estimagao within. Esta 
ultima situagao ocorre quando a variancia dos efeitos dos individuos O a for consideravelmente maior do que a 
variancia dos termos de erro idiossincratico G £ . 

Conforme discutimos quando da apresentagao da Figura 15.2, o parametro a. e os termos de erro idiossincra¬ 
tico E. t da expressao (15.1) sao independentes. Entretanto, caso os termos de erro sejam autocorrelacionados ao 
longo do tempo, ou seja, apresentarem correlagao within, deve-se partir para uma estimagao por efeitos aleatorios 
que considere a existencia de erros-padrao robustos com agrupamento por individuo. 

A logica por tras dos modelos estimados por efeitos aleatorios e que, ao contrario dos modelos estimados por 
efeitos fixos, a variagao entre individuos e considerada aleatoria e nao correlacionada com as variaveis explica- 
tivas. Em outras palavras, se o pesquisador tiver alguma razao para acreditar que as diferengas que existem entre 
individuos influenciam consideravelmente o comportamento da variavel dependente, entao ja pode comegar 
a suspeitar de que o modelo estimado por efeitos aleatorios sera mais adequado do que o estimado por efeitos 
fixos. Por outro lado, se existirem razoes para acreditar que os efeitos individuais estejam correlacionados com 
as variaveis explicativas, a estimagao por efeitos aleatorios oferecera parametros inconsistentes e o modelo por 
efeitos fixos sera mais adequado. 

Frente ao exposto, na proxima segao serao elaboradas, por meio de um exemplo em Stata, modelagens para 
dados em painel curto por meio das estimagoes POLS com erros-padrao robustos com agrupamento por indi¬ 
viduo, efeitos fixos (within), efeitos fixos com erros-padrao robustos com agrupamento por individuo, between, 
efeitos aleatorios e efeitos aleatorios com erros-padrao robustos com agrupamento por individuo. 


15.3.1.1. Estimagao de modelos longitudinals lineares de regressao para dados em painel 
curto no software Stata 

Nesta segao, apresentaremos um exemplo que segue a mesma logica dos capitulos anteriores, porem com da¬ 
dos que variam entre individuos e ao longo do tempo. Imagine que o nosso notorio e inteligente professor, que 
ja explorou consideravelmente os efeitos de determinadas variaveis explicativas sobre o tempo de deslocamento 
de um grupo de alunos ate a escola, sobre a probabilidade de se chegar atrasado as aulas e sobre a quantidade de 
atrasos que ocorrem semanal ou mensalmente, por meio, respectivamente, de modelos de regressao multipla, de 
regressao logistica binaria e multinomial e de regressao para dados de contagem, tenha agora o interesse em in- 
vestigar se variaveis preditoras, como dedicagao aos estudos e quantidade mensal de faltas a escola, influenciam o 
desempenho escolar, ao longo dos meses, de um especifico grupo de alunos. 

Como a escola onde o nosso professor leciona estimula a competigao entre estudantes e e bastante preocupa- 
da com a formagao e com o aprendizado, realiza simulados mensalmente, a fim de avaliar a evolugao do desem¬ 
penho de cada aluno ao longo do tempo, bem como de comparar o desempenho obtido por aluno em relagao a 
seus colegas em cada mes. O professor vem monitorando os dados mensais de 30 de seus alunos (sendo 10 alunos 
provenientes de cada classe) ha dois anos e, como cada simulado e realizado ao termino de cada mes, vem pes- 
quisando, em paralelo, as respectivas quantidades mensais de horas de estudo e de faltas a escola. Parte do banco 
de dados elaborado encontra-se naTabela 15.4, porem a base de dados completa pode ser acessada por meio dos 
arquivos DesempenhoPainelCurto.xls (Excel) e DesempenhoPainelCurto.dta (Stata). 

O historico escolar pregresso dos alunos ja os aloca, desde o inicio, nas suas respectivas salas de aula; embo- 
ra a variavel classe oferega esta informagao, nao sera utilizada diretamente quando da estimagao do modelo. Ja a 
variavel id corresponde ao codigo escolar de cada aluno e servira de suporte para a definigao do painel no Stata. 
Por meio daTabela 15.4, podemos observar que a base oferece um painel balanceado, uma vez que, para todos 
os 30 estudantes, ha dados para 24 meses, o que resulta em uma quantidade total de 720 observagoes. Mais ain- 
da, trata-se de um painel curto, ja que a quantidade de individuos e maior o que a quantidade total de perfodos 
em que foram coletados os dados. 
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Tabela 15.4 Exemplo: desempenho escolar, horas de estudo e faltas por mes. 


Estudante 

id 

Classe 

Periodo t 
(mes) 

Desempenho 
(nota de 0 a 100) (Y. f ) 

Quantidade de 
horas de estudo (X Ut ) 

Quantidade de faltas 
a escola (X 2ft ) 

Gabriela 

1 

A 

1 

80,3109 

21,6 

8 

Gabriela 

1 

A 

2 

83,9378 

22,8 

8 

Gabriela 


Gabriela 

1 

A 

24 

87,5648 

27,3 

5 

Patricia 

2 

A 

1 

82,9016 

21,6 

7 

Patricia 

2 

A 

2 

86,0104 

21,8 

7 

Patricia 


Patricia 

2 

A 

24 

87,0466 

25,3 

4 



Carolina 

30 

C 

1 

35,7513 

20,6 

24 

Carolina 

30 

C 

2 

28,4974 

12,8 

24 

Carolina 


Carolina 

30 

c 

24 

37,3057 

29,3 

21 


O modelo a ser estimado apresenta a seguinte expressao: 

desempenho it — OC t + fi x .horns it + faltas it 

Apos abrirmos o arquivo DesempenhoPainelCurto.dta, podemos digitar o comando desc, que faz com 
que seja possivel analisarmos as caracteristicas do banco de dados, como o numero de observances, o numero de 
variaveis e a descri^ao de cada uma delas. A Figura 15.3 apresenta este primeiro output do Stata. 


. desc 







obs: 

720 






vars: 

7 






size: 

20,160 

(99.9% of 

memory free) 





storage 

display 

value 




variable name 

type 

format 

label 

variable label 



estudante 

strl2 

%12s 





id 

byte 

%8. Og 


codigo do estudante 



classe 

strl 

%ls 


classe em que se encontra o 

estudante 1 

t 

byte 

%8. Og 


periodo (mes) 



desempenho 

float 

%8. Og 


desempenho escolar (nota de 

0 

a 100) 

horas 

float 

%9. Og 


quantidade mensal de horas de 

estudo 

faltas 

byte 

%8. Og 


quantidade mensal de faltas 

a 

escola 

| Sorted by: II 


Figura 15.3 Descri^ao do banco de dados DesempenhoPainelCurto.dta. 


Para que possamos estimar os parametros do modelo longitudinal de regressao para os dados em painel do 
nosso exemplo fazendo uso dos metodos apresentados, precisamos inicialmente definir os individuos e os perio- 
dos de tempo. Esta defini^ao e feita por meio do seguinte comando: 

xtset id t 

Conforme podemos observar por meio da Figura 15.4, o banco de dados e balanceado, com 24 periodos (me- 
ses) para cada individuo (estudante). 


. xtset id t 


panel variable: 

id (strongly balanced) 

time variable: 

t, 1 to 24 

delta: 

1 unit 


Figura 15.4 Defini<;ao do painel no Stata. 
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Antes de estimarmos o modelo proposto propriamente dito, iremos analisar o comportamento do desempe- 
nho escolar dos estudantes ao longo do tempo. Inicialmente, podemos elaborar um grafico que mostra o com¬ 
portamento individual de cada um deles, que pode ser obtido por meio da digita^ao do seguinte comando: 

xtline desempenho 

O grafico obtido encontra-se na Figura 15.5. 



Figura 15.5 Comportamento do desempenho escolar de cada estudante ao longo do tempo - graficos individuals. 

Caso haja interesse em plotar os comportamentos individuais do desempenho de cada estudante ao longo do 
tempo num mesmo grafico, pode ser digitado o seguinte comando, que gerara o grafico da Figura 15.6. 

xtline desempenho, overlay legend(off) 

Por meio deste grafico, e possivel verificar que o desempenho escolar apresenta comportamento distinto, em 
media, para os alunos provenientes de cada uma das tres classes ao longo do tempo. Caso tenhamos a inten^ao 



Figura 15.6 Comportamento do desempenho escolar de cada estudante ao longo do tempo - grafico unificado. 
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de analisar, separadamente, o comportamento do desempenho escolar dos estudantes por classe, podemos digitar 
o seguinte comando: 

graph twoway scatter desempenho t || Ifit desempenho t, by(classe) 

que gera o grafico da Figura 15.7. 



Figura 15.7 Evoiu^ao do desempenho escolar dos estudantes por classe. 


Cada ponto na Figura 15.7 representa um par desempenho-mes para determinado estudante. Podemos per- 
ceber que, para cada classe, ha um comportamento especifico medio das notas dos simulados ao longo do tem¬ 
po, porem existe uma correla^ao entre estas notas e o perfodo, o que sugere que, enquanto em alguns meses as 
notas sao homogeneamente mais altas para todas as classes, em outros acabam sendo ligeiramente mais baixas. A 
questao e saber se este comportamento, entre alunos (em cada cross-section) e para cada aluno ao longo do tempo, 
e decorrente da dedica^ao aos estudos e da assiduidade escolar. O comando a seguir permite inclusive que sejam 
calculadas as medias dos desempenhos escolares dos alunos de cada classe para o periodo analisado: 

tabstat desempenho, by(classe) 

Os outputs obtidos encontram-se na Figura 15.8. 



Figura 15.8 Medias dos desempenhos escolares por classe. 


Visto que o historico escolar pregresso serve de base para aloca^ao dos alunos em cada classe, ja era de se es- 
perar que as medias dos desempenhos nos simulados fossem significativamente diferentes entre as classes. 
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Partiremos agora para a analise das varia^oes overall, within e between das variaveis presentes no banco de da¬ 
dos, com destaque inicial para a variavel dependente desempenho. A Figura 15.9 apresenta o desempenho de cada 
um dos alunos em cada um dos periodos de tempo analisados (com distin^ao apenas ilustrativa entre as classes), 
o que permite, portanto, que sejam analisadas as varia^oes overall de cada ponto da base de dados em rela^ao 
ao desempenho medio geral (reta tracejada horizontal para desempenho = 61,9574). Por outro lado, enquanto a 
Figura 15.10 apresenta a varia^ao dos desempenhos nos simulados ao longo do tempo para cada estudante, ou 
seja, mostra os desvios do desempenho escolar em rela^ao a media individual de cada aluno (efeito within), a 
Figura 15.11 apresenta a varia^ao deste ultimo indicador, ou seja, mostra os desvios do desempenho escolar me¬ 
dio de cada aluno em rela^ao a media geral do desempenho, ou seja, considera uma unica cross-section (efeito be¬ 
tween) para o tempo medio t = 12,5 meses. Os comandos para a elabora^ao das Figuras 15.9,15.10 e 15.11 sao, 
respectivamente: 

graph twoway scatter desempenho t, yline(61.9574) 

preserve 
xtdata, fe 

graph twoway scatter desempenho t 
restore 

preserve 
xtdata, be 

graph twoway scatter desempenho t, yline(61.9574) 
restore 



\ i-1-1-1— 

0 6 12 18 24 

penodo (mes) 

O desempenho escolar {classe A) 

• desempenho escolar (classe B) 

• desempenho escolar (classe C) 

v_J 

Figura 15.9 Desempenho escolar para cada estudante em cada mes, 
com destaque para o desempenho medio geral (reta tracejada). 

Os graficos das Figuras 15.9,15.10 e 15.11, embora meramente ilustrativos, mostram, nitidamente, que exis- 
tem diferen^as consideraveis nos desempenhos escolares dos alunos provenientes das tres classes. Mais do que is- 
so, mostram tambem que, enquanto o desempenho escolar com efeito within varia aproximadamente de 51 a 77 
(amplitude de 26), este mesmo desempenho com efeito between varia aproximadamente entre 37 a 86 (amplitude 
de 49). Logo, a varia^ao between da variavel dependente e maior do que a sua varia^ao within. 

A fim de termos uma analise completa das varia^oes within e between de cada variavel a ser inserida no 
modelo longitudinal de regressao, devemos elaborar uma tabela com a decomposi^ao de variancia da variavel 
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Figura 15.10 Desvios do desempenho escolar em rela^ao a media de cada 
estudante ao longo do tempo (varia^ao within). 



Figura 15.11 Desvios do desempenho escolar medio de cada estudante (uma cross-section 
- variaqao between) em relagao ao desempenho medio geral (reta tracejada). 

dependente e das variaveis explicativas. Esta tabela pode ser obtida por rneio do comando xtsum. Para tanto, 
vamos digitar: 

xtsum id t desempenho horas faltas 

Os outputs obtidos encontram-se na Figura 15.12. 

De acordo com estes outputs, podemos verificar que o estudante ( id) e obviamente invariante ao longo do tem¬ 
po e, portanto, apresenta varia^ao within igual a zero. Por outro lado, a variavel referente ao tempo (t) e invariante 
entre estudantes, ja que estamos lidando com um painel balanceado e, portanto, a sua varia^ao between e igual a zero. 
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. xtsum 

Variable 

id t desempenho horas 

| Mean 

faltas 

Std. Dev. 

Min 

Max 

i 

Observations 











id 

overall 

1 

15.5 

8.661458 

1 

30 

1 

N = 

720 


between 

1 


8.803408 

1 

30 

1 

n — 

30 


within 

1 


0 

15.5 

15.5 

1 

T = 

24 

t 

overall 

1 

1 

12.5 

6.926999 

1 

24 

1 

1 

N = 

720 


between 

1 


0 

12.5 

12.5 

1 

n = 

30 


within 

1 


6.926999 

1 

24 

1 

T = 

24 

desemp~o 

overall 

1 

61.9574 

19.56706 

28.49741 

100 

1 

1 

N = 

720 


between 

1 


19.38953 

37.91019 

85.57858 

1 

n = 

30 


within 

1 


4.352297 

51.55153 

76.87536 

1 

T = 

24 

horas 

overall 

1 

1 

24.02361 

3.962059 

12.8 

37.3 

1 

1 

N = 

720 


between 

1 


.4035409 

23.26667 

24.80833 

1 

n = 

30 


within 

1 


3.942116 

12.89028 

37.39028 

1 

1 

T = 

24 

faltas 

overall 

1 

1 

14.16667 

6.572586 

0 

28 

1 

1 

N = 

720 


between 

1 


6.505965 

2.666667 

25.66667 

1 

n = 

30 


within 

1 


1.491748 

11.5 

16.5 

1 

T = 

24 


Figura 15.12 Decomposi^ao de variancia para cada variavel no Stata. 


Conforme ja imaginavamos, a varia^ao between e maior do que a varia^ao within para a variavel dependente 
desempenho, e este fa to e decorrente principalmente da existencia, no banco de dados, de estudantes provenien- 
tes de tres classes distintas com patamares bastante discrepantes em rela^ao ao desempenho escolar ao longo do 
tempo, conforme observamos nos graficos das Figuras 15.6, 15.7 e 15.9. Caso houvesse a inten^ao de elaborar 
uma modelagem considerando apenas os estudantes, por exemplo, da classe A, a varia^ao between da variavel de¬ 
sempenho passaria a ser bem mais baixa do que a varia^ao within. Isso pode ser comprovado quando digitamos a 
seguinte sequencia de comandos, que gerara os outputs da Figura 15.13: 

preserve 

keep if classe == "A" 
xtsum desempenho 
restore 


. preserve 

. keep if classe == "A" 

(480 observations deleted) 

. xtsum desempenho 

Variable | Mean Std. Dev. 

- + - 

desemp~o overall | 85.231 4.139111 

between | .1961439 

within | 4.134908 


Min Max | Observations 

- + - 

76.68394 100 | N = 240 

84.90933 85.57858 | n = 10 

76.81131 100.149 | T = 24 


. restore 


Figura 15.13 Decomposi^ao de variancia para a variavel desempenho (somente classe A). 


A situa^ao apresentada na Figura 15.13 e similar ao que foi discutido quando da analise do grafico da 
Figura 15.1, ou seja, quando analisamos individualmente cada uma das tres classes, podemos verificar que os 
comportamentos dos estudantes nao sao muito diferentes em cada simulado, ou seja, em cada cross-section (mes), 
mesmo que os desempenhos escolares sofram altera^oes para cada estudante ao longo do tempo. Logo, a hetero- 
geneidade entre estudantes, decorrente da inclusao, na base completa de dados, de alunos provenientes de classes 
distintas, pode estar inserindo um efeito aleatorio no intercepto do modelo a ser estimado. Entretanto, a decisao 
de escolha da estima^ao mais adequada nao deve se restringir, apenas e tao somente, a analise da variavel depen¬ 
dente, ja que este estudo preliminar tambem deve levar em considera^ao a analise da decomposi^ao de variancia 
das variaveis explicativas. 
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Vamos, desta forma, elaborar os graficos das variaveis horas e faltas em fun^ao do tempo, digitando a seguinte 
sequencia de comandos: 

quietly xtline horas, overlay legend(off) saving(horas, replace) 
quietly xtline faltas, overlay legend(off) saving(faltas, replace) 
graph combine horas.gph faltas.gph 

Os graficos elaborados encontram-se na Figura 15.14. 



Figura 15.14 Comportamento das variaveis horas e faltas ao longo do tempo. 


Por meio da analise dos graficos da Figura 15.14, podemos verificar que nao existem diferen^as acentuadas 
entre estudantes, em cada mes, em rela^ao a quantidade de horas de estudo, porem esta intensidade de estudo 
varia consideravelmente com o decorrer do tempo. O fenomeno oposto acontece com a quantidade de faltas 
mensais, ou seja, existem discrepancias acentuadas entre estudantes no que diz respeito a quantidade de faltas 
que ocorrem em cada mes, porem cada estudante tende a manter certo patamar de faltas ao longo do periodo 
analisado. A analise dos outputs apresentados na Figura 15.12 permite que estes fatos sejam comprovados, uma 
vez que, enquanto a variavel horas apresenta maior varia^ao within no banco de dados, a variavel faltas apresenta 
uma maior varia^ao between. 

Desta forma, precisamos estimar o modelo longitudinal de regressao para os dados em painel do nosso exem- 
plo fazendo uso dos diferentes tipos de estima^ao estudados anteriormente, uma vez que, enquanto determinada 
variavel com maior variancia within (no nosso exemplo, a variavel horas) pode fazer com que o modelo estimado 
por efeitos fixos seja o mais adequado, por considerar que os termos do intercepto sejam correlacionados com 
esta variavel, outra variavel com maior variancia between (no nosso exemplo, a variavel faltas) pode fazer, porem 
nao obrigatoriamente, com que o modelo estimado por efeitos aleatorios seja o mais adequado, por considerar 
que os termos do intercepto nao sejam correlacionados com os termos de erro idiossincratico. 

Portanto, este diagnostico preliminar sobre o comportamento de varia^ao das variaveis do banco de dados 
e de fundamental importancia quando do estudo de modelos de regressao que levam em considera^ao modifi- 
cagoes entre individuos e ao longo do tempo, ja que, por vezes, pode fornecer indicios sobre a estima^ao mais 
adequada a ser elaborada. 
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Partiremos, entao, para as estimates do modelo proposto, seguindo o que foi discutido na se^ao anterior. Os 
comandos para a elabora^ao de cada uma delas sao: 

• Estima^ao POLS com erros-padrao robustos com agrupamento por estudante: 

reg desempenho horas faltas, vce(cluster id) 

• Estima^ao between : 

xtreg desempenho horas faltas, be 

• Estimagao por efeitos fixos: 

xtreg desempenho horas faltas, fe 

• Estima^ao por efeitos fixos com erros-padrao robustos com agrupamento por estudante: 

xtreg desempenho horas faltas, fe vce(cluster id) 

• Estimagao por efeitos aleatorios: 

xtreg desempenho horas faltas, re theta 

• Estima^ao por efeitos aleatorios com erros-padrao robustos com agrupamento por estudante: 

xtreg desempenho horas faltas, re vce(cluster id) theta 

Apenas para fins didaticos, portanto, e importante mencionar que os comandos a seguir, embora nao tenham 
sido aqui elaborados, geram estimadores identicos dos parametros: 

reg desempenho horas faltas 

glm desempenho horas faltas, family(gaussian) 

xtpcse desempenho horas faltas, corr(independent) 

xtgls desempenho horas faltas, corr(independent) panels(iid) 

xtreg desempenho horas faltas, pa corr(independent) 

xtgee desempenho horas faltas, family(gaussian) corr(independent) 

em que o termo corr (independent) considera a existencia de correlates entre termos de erro iguais a zero 
para dois quaisquer periodos de tempo distintos e para dado individuo, que e o que tambem considera a estima- 
<pao tradicional elaborada por meio do comando reg. 

Cada comando especifico apresenta as suas proprias opt es de modelagem, como os comandos xtpcse e 
xtgls, que serao utilizados quando da estima^ao de modelos longitudinals para dados em painel longo (se- 
£ao 15.3.2), e o comando xtreg . . ., pa, em que o termo pa significa Population-Averaged Model. 

Os modelos PA , tambem conhecidos na literatura por modelos marginais, podem, de maneira generica, 
ser estimados, quando da existencia de dados longitudinals, por meio do comando xtgee, que equivale ao co¬ 
mando glm utilizado nos tres capitulos anteriores, em que o termo family () informa a distribuigao da varia- 
vel dependente que, neste caso, e normal (gaussian). O termo gee significa, em ingles, Generalized Estimating 
Equations (estima^ao generalizada de equates), e seu correspondente comando para dados longitudinals (xtgee) 
tambem pode ser utilizado quando do estudo dos modelos nao lineares, conforme veremos na se^ao 15.4. O que 
torna o comando xtgee muito util, portanto, e a multiplicidade de estimates que podem ser generalizadas em 
modelagens para dados longitudinals, ja que e permitida a considera^ao de diversas distributes da variavel de¬ 
pendente (normal, binomial, Poisson, entre outras) e de muitas estruturas de correlagao dos termos de erro, alem 
de possibilitar que sejam considerados erros-padrao robustos. 

Logo, devemos sempre comparar as estimates dos parametros obtidas pelos metodos GEE com aquelas 
oriundas de estimates po r efeitos fixos e por efeitos aleatorios. 

Voltando, portanto, as estimates propostas, seus resultados encontram-se, respectivamente, nas Figuras 15.15 
a 15.20.Vamos a analise de cada um deles. 

Para os dados do nosso exemplo, o metodo POLS com erros-padrao robustos com agrupamento por estu¬ 
dante estima os parametros do seguinte modelo: 

desempenho it —a + b x .horas it + b 2 . faltas it + u it 
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. reg desempenho horas faltas, vce(cluster id) 


Linear regression Number of obs = 720 

F( 2, 29) = 182.43 
Prob > F = 0.0000 
R-squared - 0.7385 
Root MSE = 10.02 


(Std. Err. adjusted for 30 clusters in id) 


1 

desempenho | 

Coef. 

Robust 
Std. Err. 

t 

p>iti 

[95% Conf. 

Interval] 

horas | 

.0573359 

.0496264 

1.16 

0.257 

-.0441614 

.1588332 

faltas | 

-2.55647 

.1642971 

-15.56 

0.000 

-2.892495 

-2.220445 

_cons | 

96.79664 

3.523298 

27.47 

0.000 

89.59069 

104.0026 


Figura 15.15 Outputs da estima^ao POLS com erros-padrao robustos com agrupamento por estudante. 


Com base na Figura 15.15, que apresenta os outputs do modelo de regressao mesclado (POLS), podemos, ini- 
cialmente, verificar que o coeficiente de ajuste R 2 e igual a 0,7385, o que nos permite dizer que mais de 73% do 
comportamento de varia^ao geral do desempenho escolar e devido a varia^ao conjunta das variaveis horas e faltas. 
Alem disso, enquanto o teste F nos permite afirmar que pelo menos um parametro estimado /3 e estatisticamente 
diferente de zero ao nivel de significance de 5%, os testes t de cada parametro mostram que o parametro estima¬ 
do (3 V referente a variavel horas, mostrou-se estatisticamente igual a zero a este mesmo nivel de significance, uma 
vez que a magnitude de seu erro-padrao resultou num valor-P > 0,05. 

A estima^ao de um modelo por meio do metodo POLS sem a considera^ao de erros-padrao robustos com 
agrupamento por individuo pode gerar erros-padrao diferentes e, por vezes, ate menores, mesmo que os esti- 
madores dos parametros sejam identicos, o que faz com que, nestas situates, os valores-P das estatisticas t pas- 
sem a ser menores. Entretanto, este tipo tradicional de estima^ao com erros-padrao nao robustos, cujos outputs 
nao estao apresentados aqui, considera, segundo Cameron eTrivedi (2009), que os termos de erro da regressao 
sejam independentes e identicamente distribuidos (i. i. d.), que sao pressupostos dos modelos tradicionais de 
regressao, conforme estudamos no Capitulo 12, porem nao necessariamente se aplicam a dados longitudinals. 
Portanto, e de fundamental importancia que a estima^ao POLS em modelos longitudinals de regressao elabore 
a corre^ao dos erros-padrao por meio de agrupamento no nivel do individuo. 

Antes de elaborarmos um eventual procedimento Stepwise a estima^ao apresentada na Figura 15.15, devemos 
analisar os outputs das demais estimates, a fim de que seja possivel compararmos os estimadores e seus respecti- 
vos erros-padrao. 

As demais estimates trazem em seus outputs tres medidas de coeficiente de ajuste, chamadas de R 2 overall, R 2 
within e R 2 between, calculadas em fun^ao, respectivamente, dos efeitos overall (geral), within e between discutidos 
anteriormente.Visto que o coeficiente de ajuste R 2 estudado no Capitulo 12 representa a correla^ao ao quadrado 
(que poderemos chamar de p 2 ) entre os valores reais observados da variavel dependente e seus valores previstos, 
temos, para o caso dos modelos longitudinals de regressao, que: 


• R 2 overall : 

R 2 0 =p 2 (Y it ;Y u ) 

• R 2 within: 


(15.16) 


K = P 2 (Yu-Y l ;Y u -Y i ) 


(15.17) 


• R 2 between: 



(15.18) 


Vamos, portanto, aos resultados obtidos dos modelos com estimates between, por efeitos fixos e por efeitos 
aleatorios. 
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. xtreg desempenho horas faltas, be 





Between regression (regression on group 

means) 

Number 

of obs = 

720 

Group variable 

id 


Number 

of groups = 

30 

R-sq: within 

= 0.0657 


Obs per group: min = 

24 

between 

= 0.8057 



avg = 

24.0 

overall 

= 0.4396 



max as 

24 




F(2,27) 

= 

55.99 

sd(u_i + avg(e_ 

_i.))= 8.856994 


Prob > 

F 

0.0000 

desempenho | 

Coef. Std. Err. 

t 

p>iti 

[95% Conf. 

Interval] 

horas | 

-3.397181 4.091294 

-0.83 

0.414 

-11.79182 

4.997461 

faltas | 

-2.648524 .2537677 

-10.44 

0.000 

-3.169212 

-2.127835 

cons | 

181.0907 98.05262 

1.85 

0.076 

-20.09665 

382.278 







11 ■ 


Figura 15.16 Outputs da estima^ao between. 


Conforme discutimos na se^ao anterior, a modelagem do tipo between considera somente a varia^ao existente 
entre individuos quando estima os parametros do seguinte modelo: 

desempenho { — a + b v hoTas i + b 2 .faltas i + {a. — a + £.) 


Como todas as variaveis explicativas apresentam dados que se alteram entre estudantes em cada mes, todos os 
parametros do modelo do nosso exemplo sao estimados. 

Com base na analise dos outputs da Figura 15.16, podemos verificar que, como a variavel horas apresenta uma 
maior variancia within , a estima^ao between acaba por gerar um estimador de seu parametro ainda menos signifi- 
cante do que aquele gerado pelo metodo POLS. Como a propria variavel faltas apresenta certa variancia within , 
embora possua maior variancia between , o modelo com estima^ao between fornece estimadores menos eficientes 
do que aqueles gerados pelo metodo com efeitos aleatorios e ate mesmo pelo metodo POLS. Mais do que isso, 
a estima^ao between tende a superestimar o valor do coeficiente de ajuste R 2 between , dado que considera apenas 
os valores medios de cada variavel para cada individuo e, portanto, sua elabora^ao neste exemplo serviu apenas 
para efeitos didaticos. 

A modelagem por efeitos fixos estima, por meio do metodo MQO, os parametros do seguinte modelo: 


( desempenho it — desempenho i ) = b x .{horas it — ho ras { ) + b 2 . {faltas it — fa ltas { } + {e it — £ { ) 


Embora os termos do intercepto tenham sido eliminados da expressao cujos parametros devem ser estima¬ 
dos, os outputs da Figura 15.17 apresentam o parametro estimado da constante (__cons). Isso ocorre pelo fato de 
o Stata estimar os parametros do seguinte modelo: 


{desempenho it — desempenho i + desempenho ) — a -V b x .(horas it — horas { + horas} + b 2 .{^faltas it — fa ltas { + faltas} + —£,. + £) 


que apresenta a vantagem de possuir um intercepto a que representa a media dos interceptos a. de todos os 
individuos. Alem disso, temos que: 


desempenho ■ 


( desempenho ^ 


i 


N 


j 


horas = 


( horas { ^ 


fa Itas — 


^ faltas. ^ 
N 


£ = 


Inicialmente, podemos verificar que, como todas as variaveis explicativas apresentam dados que se alteram ao 
longo do tempo para cada estudante, ou seja, possuem varia^ao within , todos os parametros do modelo do nosso 
exemplo sao estimados. 
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1 . xtreg desempenho horas faltas, fe 





Fixed-effects 

(within) regression 


Number of 

obs = 

720 

Group variable 

id 



Number of 

groups = 

30 

R-sq: within 

= 0.1066 



Obs per group: min = 

24 

between 

= 0.7919 




avg = 

24.0 

overall 

= 0.5980 




max = 

24 





F(2,688) 

= 

41.06 

corr (u__i, Xb) 

= 0.7288 



Prob > F 

= 

0.0000 

desempenho | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval) 

horas | 

.302644 

.0410976 

7.36 

0.000 

.2219522 

.3833358 

faltas | 

-.3545951 

.1086052 

-3.26 

0.001 

.5678325 

-.1413578 

_cons | 

59.71023 

2.031858 

29.39 

0.000 

55.72084 

63.69961 

sigma_u | 

17.374915 






| sigma_e | 

4.2053869 






rho | 

.94465965 

(fraction 

of variance due to u__i) 


| F test that all u_i=0: 

F(29, 688) 

= 116. 

64 

Prob > F = 0.0000 | 


Figura 15.1 7 Outputs da estima^ao par efeitos fixos. 


Os outputs do modelo estimado por efeitos fixos (Figura 15.17) mostram, com base nos valores-P das estatisti- 
cas F e t, que os parametros das variaveis horas e faltas sao estatisticamente significantes, ao nivel de significance de 
5%, para explicar o comportamento do desempenho escolar dos alunos nos meses em analise. Mais do que isso, 
podemos verificar que, enquanto o desempenho escolar apresenta, ao termino de determinado mes, uma me- 
lhora media de 3 pontos a cada incremento de 10 horas de estudo mensal (j8 1 = 0,30), ceteris paribus, o compor¬ 
tamento inverso ocorre em rela^ao a variavel faltas, ou seja, o desempenho escolar passa a apresentar, ao termino 
de determinado mes, uma piora media de 0,35 ponto a cada incremento de uma falta ao longo do mes letivo 
()3 — -0,35), tambem ceteris paribus. 

Podemos tambem verificar que o coeficiente de ajuste R 2 between e consideravelmente maior do que o 
R 2 within. Isso ocorre para os dados deste exemplo, uma vez que apenas a variavel horas apresenta maior va¬ 
riance within, de modo que a correla^ao entre deseihpenho i e desempenho i seja mais elevada pela existencia de 
maiores variances between da variavel dependente desempenho e da variavel explicativa faltas. Este fato ocorre 
pela existencia de estudantes provenientes de classes distintas, o que amplia, conforme discutimos, a variance 
between do desempenho escolar para cada instante de tempo. De fato, se o modelo estimado considerasse ape¬ 
nas estudantes provenientes, por exemplo, da classe B, o R 2 between seria reduzido consideravelmente. Apenas 
para efeitos didaticos, vamos elaborar esta estima^ao intermediaria. Para tanto, devemos digitar a seguinte se¬ 
quence de comandos: 

preserve 

keep if classe == "B" 

xtreg desempenho horas faltas, fe 

restore 

Os outputs encontram-se na Figura 15.18. 

De fato, o R 2 between da estima^ao por efeitos fixos com estudantes provenientes apenas da classe B e consi¬ 
deravelmente reduzido (0,0021) em rela^ao ao R 2 between da estima^ao por efeitos fixos que considera todos os 
estudantes da base (0,7919), o que nos permite concluir que a heterogeneidade do desempenho escolar existente 
entre estudantes provenientes de classes distintas em cada instante de tempo acaba por inserir um efeito aleatorio 
no intercepto do modelo estimado. 

A estatistica sigma_u, que se refere ao desvio-padrao do efeito individual a. (o Stata chama de u) consegue 
capturar claramente este fenomeno. Enquanto sigma_u da estima^ao que considera todos os estudantes e 12 
vezes superior ao encontrado na estima^ao que considera apenas os estudantes da classe B (17,37 versus 1,43), a 
estatistica sigma_e, que se refere ao desvio-padrao dos termos de erro idiossincratico E. ( , praticamente nao se al¬ 
tera de um caso para o outro. 
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A estatistica rho, conhecida por correla^ao intraclasse, e definida com base na seguinte expressao: 


rho = 


(sigma _uj 


(sigma _u) + (sigma _e) 


(15.19) 


e, a partir de seus resultados, podemos afirmar que, enquanto no modelo com todos os estudantes considerados 
(outputs da Figura 15.17), 94,47% da variancia que ocorre nos dados e decorrente das diferen^as entre paineis, no 
modelo que considera apenas os estudantes da classe B ( outputs da Figura 15.18), apenas 10,06% dessa variancia 
decorre das diferen^as entre os paineis. 


. preserve 

. keep if classe == "B" 
(480 observations deleted) 


. xtreg desempenho horas faltas, fe 


Fixed-effects 

(within) regression 

Number of obs 

= 

240 

Group variable 

: id 

Number of groups = 

10 

R-sq: within 

= 0.1163 

Obs per group: 

min = 

24 

between 

= 0.0021 


avg = 

24.0 

overall 

= 0.0666 


max = 

24 



F (2 , 228 ) 

= 

15.00 

corr(u_i, Xb) 

= -0.6002 

Prob > F 

= 

0.0000 


desempenho | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

horas | 

.3106635 

.0735859 

4.22 

0.000 

.1656682 

.4556589 

faltas | 

-.4309149 

.1920371 

-2.24 

0.026 

-.8093092 

-.0525206 

_cons | 

60.78339 

3.619894 

16.79 

0.000 

53.65067 

67.91612 

sigma_u | 

1.4301025 






sigma_e | 

4.2759169 






rho | 

.1006064 

(fraction 

of variance due to 

u_i) 



F test that all u_i=0: F(9, 228) = 0.79 Prob > F = 0.6304 

. restore 


Figura 15.18 Outputs da estimagao por efeitos fixos (somente classe B). 


Conforme discutimos, os modelos estimados por efeitos fixos tern por principal objetivo estudar as causas das 
alteragoes eventualmente existentes na variavel dependente decorrentes de mudan^as em cada individuo (efeito 
i^zf/zm).Tecnicamente, segundo Kohler e Kreuter (2012), embora variaveis que nao apresentem alteragoes em seus 
dados ao longo do tempo para cada individuo nao possam ser diretamente inseridas em modelos estimados por 
efeitos fixos (commando xtreg ..., fe no Stata), sao perfeitamente colineares com variaveis dummy criadas para 
cada um dos individuos e, neste sentido, podem ser inseridas em um modelo estimado por MQO. 

Para os dados do nosso exemplo, outra forma, portanto, de estimar o modelo por efeitos fixos e considerar 
como variaveis explicativas, alem das variaveis horas e faltas , (n - 1 = 29) dummies correspondentes aos n (30) es¬ 
tudantes. O modelo a ser estimado por MQO apresenta, neste sentido, a seguinte expressao: 

n= 30 

desempenho it = a + b v horas it +b 2 -faltas it + ^ y i .D it +u it 

i-2 

em que y corresponde ao parametro de cada variavel dummy D. Podemos estimar o modelo proposto por meio 
da digita^ao do seguinte comando: 

reg desempenho horas faltas i.id 

em que o termo i. id faz com que sejam estimados, automaticamente, os parametros das dummies corresponden¬ 
tes aos estudantes. Os outputs encontram-se na Figura 15.19. 
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. reg desempenho horas faltas i.id 


Source | 

SS 

df 

MS 


Number of obs 
F( 31, 688) 

= 720 

= 479.93 






Model | 

263116.061 

31 8487.61489 


Prob > F 

= 0.0000 

Residual | 

12167.4721 

688 17. 

6852792 


R-squared 

Adj R-squared 

= 0.9558 

= 0.9538 






Total | 

275283.534 

719 382 

.870005 


Root MSE 

= 4.2054 

desempenho | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

horas | 

.302644 

.0410976 

7.36 

0.000 

.2219522 

.3833358 

faltas | 

-.3545951 

.1086052 

-3.26 

0.001 

-.5678325 

-.1413578 

id | 







2 | 

.2663363 

1.219683 

0.22 

0.827 

-2.128412 

2.661084 

3 I 

.7309858 

1.218595 

0.60 

0.549 

-1.661626 

3.123597 

4 | 

-.1493934 

1.234898 

-0.12 

0.904 

-2.574014 

2.275227 

5 I 

1.305095 

1.255622 

1.04 

0.299 

-1.160215 

3.770406 

6 I 

-.7504453 

1.259332 

-0.60 

0.551 

-3.22304 

1.722149 

7 I 

1.395276 

1.287245 

1.08 

0.279 

-1.132124 

3.922676 

8 I 

-.9051937 

1.294104 

-0.70 

0.484 

-3.446062 

1.635674 

9 I 

2.070273 

1.32597 

1.56 

0.119 

-.5331599 

4.673706 

10 | 

.9092385 

1.232205 

0.74 

0.461 

-1.510095 

3.328572 

11 1 

-20.98653 

1.428804 

-14.69 

0.000 

-23.79187 

-18.1812 

12 | 

-20.36963 

1.374674 

-14.82 

0.000 

-23.06869 

-17.67057 

13 | 

-20.00394 

1.487427 

-13.45 

0.000 

-22.92439 

-17.0835 

14 | 

-20.51903 

1.326452 

-15.47 

0.000 

-23.12341 

-17.91465 

15 | 

-18.52673 

1.625316 

-11.40 

0.000 

-21.7179 

-15.33556 

16 | 

-21.95155 

1.28855 

-17.04 

0.000 

-24.48152 

-19.42159 

17 | 

-19.26762 

1.697005 

-11.35 

0.000 

-22.59955 

-15.9357 

18 | 

-21.47276 

1.25462 

-17.11 

0.000 

-23.9361 

-19.00942 

19 | 

-18.1664 

1.774281 

-10.24 

0.000 

-21.65005 

-14.68274 

20 | 

-19.9514 

1.550082 

-12.87 

0.000 

-22.99485 

-16.90794 

21 | 

-41.51667 

1.945664 

-21.34 

0.000 

-45.33682 

-37.69652 

22 | 

-41.81719 

1.8601 

-22.48 

0.000 

-45.46935 

-38.16504 

23 | 

-40.93721 

2.032011 

-20.15 

0.000 

-44.92689 

-36.94752 

24 | 

-42.0818 

1.778623 

-23.66 

0.000 

-45.57398 

-38.58962 

25 | 

-40.47216 

2.199139 

-18.40 

0.000 

-44.78999 

-36.15433 

26 | 

-42.73653 

1.695704 

-25.20 

0.000 

-46.0659 

-39.40715 

27 | 

-39.711 

2.291104 

-17.33 

0.000 

-44.2094 

-35.21261 

28 | 

-42.66852 

1.624533 

-26.27 

0.000 

-45.85816 

-39.47888 

29 | 

-40.39842 

2.391194 

-16.89 

0.000 

-45.09334 

-35.70351 

30 | 

-40.46892 

2.112969 

-19.15 

0.000 

-44.61756 

-36.32028 

cons | 

80.01529 

1.633022 

49.00 

0.000 

76.80898 

83.22159 


Figura 15.19 Outputs da estima^ao por MQO com dummies por estudante (efeitos fixos). 


Em compara^ao aos outputs apresentados na Figura 15.17, podemos verificar que, de fato, os estimadores dos 
parametros correspondentes, respectivamente, as variaveis horas e faltas, sao exatamente iguais. 

Elaboradas estas discussoes, vamos voltar especificamente a analise dos outputs da Figura 15.17, referente a es¬ 
timate do modelo por efeitos fixos com a base de dados completa. Conforme discutimos, os efeitos individu¬ 
al a. (o Stata chama de u_i) podem ser correlacionados com as variaveis explicativas X quando da estima^ao de 
um modelo com efeitos fixos. De fato, temos, para os dados do nosso exemplo, que corr (u_i, Xb) = 0.7288. 
Conforme veremos adiante, a estima^ao do modelo por efeitos aleatorios faz com que esta correla^ao seja igual 
a zero por imposi^ao. O pesquisador podera inclusive gerar na base de dados uma variavel com os efeitos indivi¬ 
dual, digitando predict ui, u logo apos a estima^ao do modelo por efeitos fixos elaborada por meio do co- 
mando xtreg . . ., fe. Pode-se inclusive verificar que esta nova variavel ui e invariante para cada observa^ao i. 

Antes de partirmos para a estima^ao do modelo por efeitos aleatorios, vamos, para efeitos didaticos, estimar o 
modelo por efeitos fixos levando em considerate a existencia de erros-padrao robustos com agrupamento por 
individuo, cujos outputs encontram-se na Figura 15.20. 

A exce^ao dos resultados dos testes Fe t, os demais outputs apresentados nas Figuras 15.17 e 15.20 sao identicos 
(coeficientes de ajuste R 2 , estimadores dos parametros do intercepto e das variaveis explicativas, corr (u_i, Xb), 
e estatisticas sigma_u, sigma_e e rho). 

Logo, os valores previstos do desempenho escolar ( desempenho it ) obtidos quando das estimates do modelo com 
ou sem a considerate de erros-padrao robustos com agrupamento por individuo sao exatamente os mesmos. O 
que difere entre eles e o calculo dos erros-padrao de cada parametro estimado, fazendo com que as estatisticas t se- 
jam, portanto, diferentes. Para os dados do nosso exemplo, como os erros-padrao sao menores quando se considera 
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1 . xtreg desempenho horas faltas, fe vce(cluster id) 



Fixed-effects 

(within) regression 

Number of 

obs = 

720 

Group variable 

id 


Number of 

groups = 

30 

R-sq: within 

= 0.1066 


Obs per group: min = 

24 

between 

= 0.7919 



avg = 

24.0 

overall 

= 0.5980 



max = 

24 




F (2,29) 

= 

166.69 

corr(u_i, Xb) 

= 0.7288 


Prob > F 


0.0000 



(Std. Err. 

adjusted for 30 clusters in id) | 

1 


Robust 




desempenho | 

Coef. 

Std. Err. t 

P>|t| 

[95% Conf. 

Interval] 

horas | 

.302644 

.0257471 11.75 

0.000 

.2499853 

.3553027 

faltas | 

-.3545951 

.095999 -3.69 

0.001 

-.5509352 

-.1582551 

__cons | 

59.71023 

1.809366 33.00 

0.000 

56.00966 

63.4108 

sigma u | 

17.374915 





sigma_e | 

4.2053869 





rho | 

.94465965 

(fraction of variance due to u_i) 


11 11 


Figura 15.20 Outputs da estima^ao por efeitos fixos com erros-padrao robustos com agrupamento por estudante. 


o agrupamento por estudante, cada estatistica t passa a ser maior, j a que o erro-padrao e inserido no calculo em seu 
denominador (conforme vimos no Capitulo 12), o que faz com que seja aumentada a probabilidade de que deter- 
minado parametro estimado seja estatisticamente diferente de zero a determinado ruvel de significancia desejado. 

Neste caso, como os parametros estimados ja haviam se mostrado estatisticamente diferentes de zero no mo- 
delo apresentado na Figura 15.17, ao nivel de significancia de 5%, a escolha da estima^ao do modelo que consi- 
dera a existencia de erros-padrao robustos com agrupamento por estudante e indiferente para efeitos de previsao. 

Apenas a titulo de comentario, a estima^ao dos parametros do modelo por efeitos fixos tambem pode ser ob- 
tida por meio dos comandos: 

areg desempenho horas faltas, absorb(id) 

areg desempenho horas faltas, absorb(id) vce(cluster id) 

Conforme discutem Cameron eTrivedi (2009) ,enquanto no modelo estimado por efeitos fixos sem a considera^ao 
de erros-padrao robustos com agrupamento por individuo os outputs obtidos por meio dos comandos xtreg . . . , 
f e e areg sao exatamente identicos, no modelo estimado por efeitos fixos com a considera^ao de erros-padrao os 
outputs diferemlevemente,pelo fato de a estima^ao elaborada com o comando areg . . . , vce (cluster id) levar 
em consideragao uma pequena corre^ao amostral, ja que que assume ser maior a quantidade de periodos do que 
a quantidade de individuos, o que nao ocorre em um painel curto. 

Partiremos, por fim, para a analise das estimates do modelo por efeitos aleatorios. 

Para os dados do nosso exemplo, a modelagem por efeitos aleatorios estima, por meio do metodo MQG, os 
parametros do seguinte modelo: 

desempenho it = a { +b 1 .horas it +b 2 . faltas it +£ it 


em que a. captura o comportamento dos efeitos aleatorios entre estudantes e £ j( corresponde ao comportamento 
dos termos de erro que sofrem influencia dos efeitos fixos para cada estudante (efeitos within). Note,por meio dos 
outputs da Figura 15.21, que, por defini^ao, os efeitos individuais a. (o Stata chama de u_i) e as variaveis explica- 
tivas X apresentam correla^ao igual a zero, ou seja, ao contrario do modelo estimado por efeitos fixos, a varia^ao 
do desempenho escolar entre estudantes e aleatoria e nao correlacionada com as variaveis horas e faltas. 

Conforme discutido na se$ao 15.3, os parametros do modelo proposto podem ser estimados por meio de uma 
transforma^ao linear apropriada que faz uso de um parametro de transforma^ao 6 (o Stata chama de theta). Para 
os dados do nosso exemplo, podemos, portanto, estimar os parametros do seguinte modelo transformado, com 
base na expressao (15.14): 


( desempenho it — d r desempenho^ = a.(\-6^ + b v (horas it — 0 i .horas .)+ b 2 .[ faltas it — 6 r faltas^ + a..(l - 0.) + (e u — 0 f .£.) 
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. xtreg desempenho horas faltas, re theta 


Random-effects 

GLS regression 


Number of obs = 

720 

Group variable 

id 



Number of groups = 

30 

R-sq: within 

= 0.0977 



Obs per group: min = 

24 

between 

- 0.7974 



avg = 

24.0 

overall 

- 0.7076 



max = 

24 





Wald chi2 (2) 

111.74 

corr(u i, X) 

= 0 (assumed] 



Prob > chi2 = 

0.0000 

theta 

= .90307987 





desempenho | 

Coef. 

Std. Err. 

z 

P>|z| [95% Conf. 

Interval] 

horas | 

.2677901 

.042827 

6.25 

0.000 .1838507 

.3517294 

faltas | 

-.7154633 

.1045035 

-6.85 

0.000 -.9202864 

-.5106403 

_cons | 

65.65984 

2.612108 

25.14 

0.000 60.54021 

70.77948 

sigma_u | 

8.8152971 





sigma_e | 

4.2053869 





rho | 

.8146095 

(fraction 

of variance due to u_i) 



Figura 15.21 Outputs da estima^ao por efeitos aleatorios. 


e, com base na expressao (15.15), chegamos a: 


ft =1- 


(4,2054) 


24.(8,8153) +(4,2054) 


= 0,9031 


que e exatamente o valor de theta apresentado pelo Stata nos outputs da Figura 15.21. 

Logo, como a estima^ao por efeitos aleatorios considera simultaneamente as varia^oes within e between nos 
dados, o valor de theta proximo a 1 para os dados do nosso exemplo indica que a estima^ao por efeitos aleato¬ 
rios apresenta parametros bem mais proximos daqueles obtidos pela estima^ao por efeitos fixos (estima^ao within) 
do que daqueles obtidos pela estima^ao POLS, dado que a variancia dos efeitos individuais dos estudantes <J 2 e 
consideravelmente maior do que a variancia dos termos de erro idiossincratico O 2 . 

De fato, se um curioso pesquisador estimar tres modelos por efeitos aleatorios, sendo cada um deles aplicado 
aos dados dos estudantes provenientes de cada uma das tres classes, podera verificar que os parametros de trans- 
forma^ao 0. serao iguais a zero nas tres estimates, ja que a variancia dos interceptos dos estudantes em cada 
classe sera igual a zero na estima^ao por efeitos aleatorios. Para comprovar este fato, devemos digitar a seguinte 
sequencia de comandos: 


preserve 

keep if elasse == "A" 

quietly xtreg desempenho horas faltas, re theta 

estimates store classeA 

restore 

preserve 

keep if classe == "B" 

quietly xtreg desempenho horas faltas, re theta 

estimates store classeB 

restore 

preserve 

keep if classe == "C" 

quietly xtreg desempenho horas faltas, re theta 

estimates store classeC 

restore 

estimates table classeA classeB classeC, stats (sigma_u sigma_e theta) 
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Os outputs encontram-se na Figura 15.22. 


. preserve 

. keep if classe = "A" 

(480 observations deleted) 

. quietly xtreg desempenho horas faltas, re theta 
. estimates store classeA 
. restore 

. preserve 

. keep if classe == "B" 

(480 observations deleted) 

. quietly xtreg desempenho horas faltas, re theta 
. estimates store classeB 
. restore 

. preserve 

. keep if classe == "C" 

(480 observations deleted) 

. quietly xtreg desempenho horas faltas, re theta 
. estimates store classeC 
. restore 

. estimates table classeA classeB classeC, stats(sigma_u sigma__e theta) 


Variable | 

classeA 

classeB 

classeC 

horas | 

.37174716 

.34513825 

.27710369 

faltas | 

-.10048482 

-.07524554 

-.07979828 

__cons | 

77.021466 

54.921372 

33.535137 

sigma_u | 

0 

0 

0 

sigma_e | 

3.9500469 

4.2759169 

4.4026562 

theta | 

0 

0 

0 


Figura 15.22 Outputs da estimagao por efeitos aleatorios por classe. 

Conforme podemos verificar por meio dos outputs apresentados na Figura 15.22, a eliminagao da heteroge- 
neidade proveniente da existencia de classes distintas faz com que a variancia dos efeitos individuais entre estu- 
dantes 0 2 a (sigma_u), assim como a estimagao do parametro de transformagao 0. (theta), va a zero quando da 
estimagao de cada modelo por efeitos aleatorios. 

Voltando aos outputs apresentados na Figura 15.21, como a estimagao por efeitos aleatorios e elaborada por 
meio do metodo MQG, as estatisticas F e t sao respectivamente substituidas pelas estatisticas de Wald / e z de 
Wald. Logo, os outputs do modelo estimado por efeitos aleatorios mostram, com base nos valores-P destas estatisti¬ 
cas, que os parametros das variaveis horas e faltas sao estatisticamente significantes, ao nivel de significancia de 5%, 
para explicar o comportamento do desempenho escolar dos alunos nos meses em analise. Alem disso, por meio 
deste metodo de estimagao, podemos verificar que, enquanto o desempenho escolar apresenta, ao termino de de- 
terminado mes, uma melhora media de 2,7 pontos a cada incremento de 10 horas de estudo mensal (j3 = 0,27), 
ceteris paribus , o comportamento inverso ocorre em relagao a variavel faltas, ou seja, o desempenho escolar passa a 
apresentar, ao termino de determinado mes, uma piora media de 0,71 ponto a cada incremento de uma falta ao 
longo do mes letivo (/3 2 = -0,71), tambem ceteris paribus. 

As demais estatisticas apresentam interpretagoes similares as discutidas quando da analise do modelo estimado 
por efeitos fixos. 

Antes de elaborarmos uma comparagao dos parametros e respectivos erros-padrao estimados pelos diversos 
metodos propostos, vamos, novamente para efeitos didaticos, estimar o modelo por efeitos aleatorios levando em 
consideragao a existencia de erros-padrao robustos com agrupamento por individuo, cujos outputs encontram-se 
na Figura 15.23. 

Analogamente ao encontrado para o modelo estimado por efeitos fixos, os valores previstos do desempenho 
escolar ( desempenho it ) obtidos quando das estimagoes por efeitos aleatorios com ou sem a consideragao de erros- 
-padrao robustos com agrupamento por individuo sao exatamente os mesmos. O que difere entre eles e o calculo 
dos erros-padrao de cada parametro estimado, fazendo com que as estatisticas z de Wald sejam, portanto, diferen- 
tes. Entretanto, como os parametros estimados ja haviam se mostrado estatisticamente diferentes de zero no mo¬ 
delo apresentado na Figura 15.21, ao nivel de significancia de 5%, a escolha da estimagao do modelo que consi- 
dera a existencia de erros-padrao robustos com agrupamento por estudante e indiferente para efeitos de previsao. 
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1 . xtreg desempenho horas faltas, re vce(cluster id) theta 


“ 


Random-effects 

GLS regression 

Number 

of obs 


= 

720 

Group variable 

id 


Number 

of groups 

= 

30 

R-sq: within 

= 0.0977 


Obs per 

group: 

min 

= 

24 

between 

= 0.7974 




avg 

= 

24.0 

overall 

= 0.7076 




max 

= 

24 




Wald chi2(2) 


= 

438.15 

corr(u i, X) 

= 0 (assumed) 


Prob > 

chi2 


= 

0.0000 

theta 

= .90307987 









(Std. Err. 

adjusted 

for 30 

clusters in id) | 

1 


Robust 






desempenho | 

Coef. 

Std. Err. z 

P>|z| 

[95% 

Conf. 

Interval] 

horas | 

.2677901 

.0231819 11.55 

0.000 

.2223544 


.3132257 

faltas | 

-.7154633 

.0887831 -8.06 

0.000 

-.8894751 


-.5414516 

_cons | 

65.65984 

3.209285 20.46 

0.000 

59.36976 


71.94993 

sigma_u | 

8.8152971 







sigma_e | 

4.2053869 







rho | 

.8146095 

(fraction of variance due to u_i) 




li ■ 


Figura 15.23 Outputs da estima^ao por efeitos aleatorios com erros-padrao robustos com agrupamento por estudante. 


Elaboradas estas seis diferentes estimates para os dados em painel curto do nosso exemplo, podemos con- 
soli dar os resultados obtidos em cada uma delas em uma unica tabela, para que seja possfvel compararmos os 
estimadores dos parametros e seus respectivos erros-padrao. Para tanto, podemos digitar a seguinte sequencia de 
comandos: 


quietly reg desempenho horas faltas, vce(cluster id) 
estimates store POLSrob 


quietly xtreg desempenho horas 
estimates store BE 

quietly xtreg desempenho horas 
estimates store EF 

quietly xtreg desempenho horas 
estimates store EFrob 

quietly xtreg desempenho horas 
estimates store EA 

quietly xtreg desempenho horas 
estimates store EArob 


faltas, 

be 



faltas, 

fe 



faltas, 

fe 

vce (cluster 

id) 

faltas, 

re 

theta 


faltas, 

re 

vce (cluster 

id) theta 


estimates table POLSrob BE EF EFrob EA EArob, b se stats(N r2 r2_o r2_b 
r2_w F chi2 sigma_u sigma_e rho theta) 


Os outputs gerados encontram-se na Figura 15.24. 

Como podemos verificar por meio da consolida^ao dos resultados das estimates, os parametros estimados e 
seus respectivos erros-padrao variam de modelo para modelo. 

Inicialmente, podemos perceber que a rela^ao entre as variancias dos interceptos (efeitos individuais) e a vari- 
ancia dos termos de erro idiossincratico e maior nos modelos estimados por efeitos fixos do que para os modelos 
estimados por efeitos aleatorios, o que resulta numa correla^ao intraclasse (rho) maior. 

Alem disso, e de fundamental importancia que analisemos os erros-padrao dos parametros de cada estimagao, 
cujos valores encontram-se imediatamente abaixo dos respectivos parametros propriamente ditos. Neste senti- 
do, podemos afirmar que os modelos com estimagao por efeitos fixos e por efeitos aleatorios apresentam erros- 
padrao levemente menores do que aqueles obtidos pela estima^ao POLS e bem menores do que os obtidos pela 
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. quietly reg desempenho horas faltas, vce(cluster id) 

. estimates store POLSrob 

. quietly xtreg desempenho horas faltas, be 
. estimates store BE 

. quietly xtreg desempenho horas faltas, fe 
. estimates store EF 

. quietly xtreg desempenho horas faltas, fe vce(cluster id) 

. estimates store EFrob 

. quietly xtreg desempenho horas faltas, re theta 
. estimates store EA 

. quietly xtreg desempenho horas faltas, re vce(cluster id) theta 
. estimates store EArob 

. estimates table POLSrob BE EF EFrob EA EArob, b se stats(N r2 r2_o r2_b r2_w F chi2 
sigma_u sigma_e rho theta) 


Variable 

1 

POLSrob 

BE 

EF 

EFrob 

EA 

EArob 

horas 

1 

.05733589 

-3.3971808 

.30264399 

.30264399 

.26779007 

.26779007 


1 

.04962635 

4.0912937 

.04109762 

.02574707 

.04282698 

.02318189 

faltas 

1 

-2.5564702 

-2.6485237 

-.35459515 

-.35459515 

-.71546334 

-.71546334 


1 

.16429711 

.25376775 

.10860518 

.09599902 

.10450346 

.08878312 

cons 

1 

96.796643 

181.0907 

59.710228 

59.710228 

65.659844 

65.659844 


1 

3.5232984 

98.052615 

2.0318582 

1.8093661 

2.6121084 

3.209285 

N 

1 

720 

720 

720 

720 

720 

720 

r2 

1 

.73849331 

.80573079 

.10662366 

.10662366 



r2 o 

1 


.43959654 

.59799616 

.59799616 

.70763565 

.70763565 

r2_b 

1 


.80573079 

.79188237 

.79188237 

.79742313 

.79742313 

r2 w 

1 


.0657398 

.10662366 

.10662366 

.09765258 

.09765258 

F 

1 

182.43468 

55.991199 

41.05609 

166.68578 



chi2 

1 





111.73945 

438.15069 

sigma_u 

1 



17.374915 

17.374915 

8.8152971 

8.8152971 

sigma_e 

1 



4.2053869 

4.2053869 

4.2053869 

4.2053869 

rho 

1 



.94465965 

.94465965 

.8146095 

.8146095 

theta 

1 





.90307987 

.90307987 

legend: b/se 


Figura 15.24 Outputs consolidados das estimates do modelo proposto. 


estimagao com efeitos between. Ademais, os modelos que consideram a existencia de erros-padrao robustos com 
agrupamento por estudante apresentam erros-padrao dos parametros ainda menores. 

Inicialmente, a fim de que seja possivel compararmos os estimadores dos modelos obtidos por POLS 
e por efeitos aleatorios, devemos fazer uso do teste LM ( Lagrange multiplier) de Breusch-Pagan. Este 
teste permite que verifiquemos se a variancia entre individuos e igual a zero, ou seja, se nao existem dife¬ 
rengas significativas entre os estudantes (H Q : modelo POLS, ou seja, nao existe nenhum efeito em painel), 
ou, por outro lado, se ocorrem diferengas estatisticamente diferentes entre os individuos da amostra (H x : 
efeitos aleatorios), a determinado nivel de significance. Para que este teste seja elaborado no Stata, deve¬ 
mos digitar xttestO imediatamente apos a elaboragao da estimagao por efeitos aleatorios. A sequencia de 
comandos e, portanto: 

quietly xtreg desempenho horas faltas, re theta 
xttestO 

Os outputs deste teste encontram-se na Figura 15.25 e, com base no resultado obtido, podemos rejeitar a hi- 
potese de que o modelo POLS oferega estimadores apropriados, ou seja, existem diferengas estatisticamente sig- 
nificantes (ao nivel de significance de 5%) entre os estudantes ao longo do tempo que justiquem a adogao da 
modelagem em painel. E importante mencionar, entretanto, que se fosse estimado um modelo para cada classe, 
nao ocorreriam diferengas entre os estudantes, ou seja, o metodo POLS ofereceria estimadores apropriados dos 
parametros caso fossem estimados tres modelos distintos (um para cada classe de alunos). 

Outro teste que nos permite afirmar que a adogao da modelagem em painel e adequada para os dados do 
nosso exemplo e o teste F de Chow, cujo resultado e apresentado ao final dos outputs da estimagao por efeitos 
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I| . quietly xtreg desempenho horas faltas, re 
I . xttestO 

theta II 

Breusch and Pagan Lagrangian multiplier test for random effects 

desempenho[id,t] = Xb + u[id] + e[id,t] 

Estimated results: 


| Var sd 

= sqrt(Var) 

desempe~o | 382.87 

19.56706 

e | 17.68528 

4.205387 

u | 77.70946 

8.815297 

Test: Var(u) = 0 


chibar2(01) = 

4269.11 

Prob > chibar2 = 

0.0000 


Figura 15.25 Outputs do teste LM de Breusch-Pagan no Stata. 


fixos (Figura 15.17) e, por meio do qual, e possivel rejeitar a hipotese H Q de que todos os efeitos individuals a. dos 
estudantes sejam iguais a zero. A expressao da estatistica F utilizada no teste de Chow e dada por: 


(iR. F£ ^pqls) 


7 = ( T ~l) 

c/ - (1 -R 2 FE ) 

(n.T-T-k) 


(15.20) 


em que R 2 FE corresponde ao coeficiente de ajuste obtido pela estima^ao por efeitos fixos que considera dum¬ 
mies por estudante (Figura 15.19), R 2 pOLS corresponde ao coeficiente de ajuste obtido pela estima^ao POLS 
(Figura 15.15) efeeo numero de parametros /3 estimados. Logo, para os dados do nosso exemplo, temos que: 


(0,9558-0,7385) 

(30-1) 

(1-0,9558) 

(720-30-2) 


116,64 


Como o F de Chow calculado F chow = 116,64 > F = F 2968g5% = 1,48, podemos rejeitar, ao nivel de signi¬ 
ficance de 5%, a hipotese nula de que todos os efeitos individuals a dos estudantes sejam iguais a zero. Apenas 
para fins didaticos, o resultado do teste F de Chow apresentado na Figura 15.17 e reproduzido na Figura 15.26. 


1 . xtreg desempenho horas 

faltas, 

fe 



1 F test that all u_i=0: 

F (29, 

688) = 

116.64 

Prob > F - 0.0000 


Figura 15.26 Outputs da estimagao por efeitos fixos - destaque apenas para o teste Fde Chow. 

Assim como discutido para o teste LM de Breusch-Pagan, o teste F de Chow tambem nos permite afirmar 
(resultados nao apresentados aqui) que o metodo POLS ofereceria estimadores apropriados dos parametros caso 
fossem estimados tres modelos distintos, sendo um para cada classe de alunos. 

Portanto, resta-nos discutir sobre a escolha do modelo estimado por efeitos fixos ou aquele estimado por efei¬ 
tos aleatorios. A fim de que possamos tomar esta decisao, podemos elaborar o conhecido teste de Hausman, 
que investiga se os efeitos individuals a dos estudantes e as variaveis X apresentam correla^ao estatisticamente 
igual a zero, ou seja, se estes efeitos individuals sao aleatorios e, portanto, existe similaridade (consistencia) entre os 
parametros estimados por efeitos fixos e por efeitos aleatorios (H Q : efeitos aleatorios), ou se os efeitos individuals 
nao sao aleatorios e, portanto, nao existe similaridade estatistica entre os parametros estimados pelos dois metodos 
(H t : efeitos fixos), a determinado nivel de significancia. Para que este teste seja elaborado no Stata, com base nas 
estimates que nomeamos de EF e EA , e preciso que seja digitado o seguinte comando: 

hausman EF EA, sigmamore 

Os outputs encontram-se na Figura 15.27. 
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. hausman EF EA, 

sigmamore 





- Coefficients - 



1 

(b) 

(B) 

(b-B) 

sqrt(diag(V_b-V_B)) 

1 

EF 

EA 

Difference 

S.E. 

horas | 

.302644 

.2677901 

.0348539 

.0043166 

faltas | 

-.3545951 

-.7154633 

.3608682 

.0449196 


b = consistent under Ho and Ha; obtained from xtreg 
B = inconsistent under Ha, efficient under Ho; obtained from xtreg 

Test: Ho: difference in coefficients not systematic 

chi2(2) = (b-B)'[(V_b-V_B) A (-1)](b-B) 

= 65.20 

Prob>chi2 = 0.0000 


Figura 15.27 Outputs do teste de Hausman no Stata. 


Com base nestes outputs, podemos rejeitar a hipotese de que a modelagem obtida por efeitos aleatorios ofe- 
rece estimadores consistentes dos parametros, ja que estes diferem consideravelmente entre as estimates para a 
variavel faltas, o que faz com que a correla^ao entre os interceptos dos estudantes (efeitos individuals) e esta va¬ 
riavel seja consideravelmente diferente de zero. O mesmo ja nao pode ser dito em rela^ao a variavel horas, ja que 
as diferen^as entre os estimadores dos parametros obtidos pelas duas modelagens sao bem menores. 

Vamos analisar em maior detalhe este fato, por meio da elabora^ao de dois graficos que mostram a rela^ao en¬ 
tre a variavel dependente desempenho e cada uma das variaveis explicativas, com enfase para os valores previstos por 
meio dos metodos de estima^ao por efeitos fixos e por efeitos aleatorios. Para tanto, devemos digitar a seguinte 
sequencia de comandos: 

quietly xtreg desempenho horas faltas, fe 

predict yhat_ef 

quietly xtreg desempenho horas faltas, re theta 

predict yhat_ea 

quietly graph twoway scatter desempenho horas || Ifit yhat_ef horas || 

Ifit yhat_ea horas ||, legend(label(2 "efeitos fixos") label(3 "efeitos 
aleatorios")) saving(horas, replace) 

quietly graph twoway scatter desempenho faltas || If it yhat_ef faltas | | 
Ifit yhat_ea faltas ||, legend(label(2 "efeitos fixos") label(3 "efeitos 
aleatorios")) saving(faltas, replace) 

graph combine horas.gph faltas.gph 

Os graficos gerados encontram-se na Figura 15.28. 

Por meio da analise destes graficos, podemos comprovar, em concordancia com os resultados apresentados na 
Figura 15.27 sobre a similaridade (consistencia) dos estimadores dos parametros da variavel horas, que, de fato, 
nao existem diferen^as consideraveis nos valores previstos do desempenho escolar obtidos por efeitos fixos e por 
efeitos aleatorios. Isso ocorre, fundamentalmente, pelo fato de que as quantidades mensais de horas de estudo, 
embora se alterem ao longo do tempo para cada estudante, nao apresentam medias substancialmente diferen- 
tes entre eles e, consequentemente, entre estudantes provenientes de classes distintas, o que acaba por gerar uma 
maior variancia within para esta variavel, conforme ja discutimos. O mesmo, entretanto, nao pode ser dito em 
rela^ao aos estimadores dos parametros da variavel faltas obtidos por efeitos fixos e por efeitos aleatorios, que aca- 
bam por gerar valores previstos diferentes do desempenho escolar. Este fato, por sua vez, e gerado, basicamente, 
porque os estudantes provenientes das tres classes apresentam medias consideravelmente diferentes entre si para a 
quantidade mensal de faltas a escola, o que acaba por gerar, conforme tambem j a discutimos, uma maior variancia 
between para esta variavel. Alem disso, devemos tambem lembrar que a propria variavel dependente ( desempenho) 
apresenta maior variancia between. 

Neste sentido, caso um curioso pesquisador estime um modelo considerando apenas a variavel horas como 
preditora, ira verificar que a estima^ao mais adequada sera aquela que considera a existencia de efeitos aleatorios 
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quantidade mensal de horas de estudo 
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- efeitos aleatorios 


Figura 15.28 Comportamento da variavel dependente em fun$ao das variaveis explicativas, 
com destaque para as estimates por efeltos fixos e aleatorios. 


nos termos individuals, mesmo que esta variavel apresente maior varia^ao within. Por outro lado, caso estime um 
modelo considerando somente a variavel faltas como explicativa, ira chegar a conclusao de que a estima^ao por 
efeitos fixos sera a mais adequada. Logo, as diferen^as existentes nos parametros estimados por efeitos fixos e por 
efeitos aleatorios para a variavel faltas fazem com que a estima^ao por efeitos fixos acabe sendo a escolhida para 
o modelo final completo. 

E importante ressaltar que, caso tenhamos um modelo com muitas variaveis explicativas, porem, para cada 
uma delas, nao ocorrerem diferen^as significativas entre os parametros estimados por efeitos fixos e por efeitos 
aleatorios, ou seja, as correlates entre os interceptos e as variaveis explicativas forem estatisticamente iguais a 
zero, teremos um adequado modelo estimado por efeitos aleatorios. Entretanto, caso seja inserida uma nova va¬ 
riavel preditora cujos parametros estimados pelos dois metodos diferirem entre si, em muito sera aumentada a 
probabilidade de que tenhamos um adequado modelo final estimado por efeitos fixos, fato que ocorre para os 
dados do nosso exemplo. 1 

Embora o teste de Hausman investigue se os efeitos individuals a. dos estudantes e as variaveis X apresen- 
tam correla^ao estatisticamente igual a zero, ou seja, se existe consistencia entre os parametros estimados por 
efeitos fixos e por efeitos aleatorios, isso e feito partindo-se da premissa de que os termos de erro E obti- 
dos quando da estima^ao por efeitos aleatorios sejam independentes e identicamente distribuidos, o que nao 
ocorre quando da estima^ao com erros-padrao robustos. Logo, e de fundamental importancia, nestes casos, 
que seja aplicado o teste robusto de Hausman, conforme descrevem Hoechle (2007) e Cameron eTrivedi 
(2009). O procedimento para a elabora^ao deste teste no Stata, para os dados do nosso exemplo, e dado pela 
seguinte sequencia de comandos: 


1 Um curioso pesquisador podera, alternativamente, testar se os efeitos fixos sao realmente necessarios por meio da estimagao de um 
modelo com a insergao de dummies temporais. Para o caso do nosso exemplo, poderia ter sido estimado um modelo por meio da digitagao 
do comando xtreg desempenho horas faltas i. t, fe (em que o termo i. t gera dummies de tempo) e, na sequencia, o 
comando testparm i . t, que permite que seja elaborado um teste F que avalia a significance conjunta dos parametros correspondentes 
as dummies temporais. Caso Prob > F do teste seja menor do que 0,05 (como, de fato, ocorre no nosso exemplo), poderemos rejeitar 
a hipotese nula, a 95% de confianga, de que os parametros de todas as dummies temporais sejam conjuntamente iguais a zero e, portanto, 
efeitos fixos serao necessarios. 
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quietly xtreg desempenho horas faltas, re 
sort id t 
by id: gen T=_N 

gen theta=l-sqrt(e(sigma_e) A 2/(e(sigma_e) A 2+ T*e(sigma_u) A 2)) 

foreach var of varlist desempenho horas faltas { 
by id: egen mean'var' = mean('var') 
gen 'var'_re = 'var' - theta*mean'var' 
gen 'var'__fe = 'var' - mean'var' 

> 

quietly reg desempenho_re horas_re faltas__re horas_fe faltas_fe, 
vce (cluster id) 

test horas fe faltas fe 


. quietly xtreg desempenho horas faltas, re 
. sort id t 
. by id: gen T=_N 

. gen theta=l-sqrt(e(sigma_e) A 2/(e(sigma_e) A 2+ T*e (sigma_u) A 2)) 

. foreach var of varlist desempenho horas faltas { 

2. 

. by id: egen mean'var ? = mean('var') 

3. 

. gen 'var'_re = 'var' - theta*mean'var’ 

4. 

. gen 'var'_fe = 'var' - mean'var' 

5. 

• } 

. quietly reg desempenho_re horas_re faltas_re horas__fe faltas_fe, vce (cluster id) 
. test horas_fe faltas_fe 

( 1) horas__fe = 0 
( 2) faltas_fe = 0 

F( 2, 29) = 47.51 

Prob > F = 0.0000 


Figura 15.29 Output do teste robusto de Hausman no Stata. 


O resultado do teste robusto de Hausman encontra-se na Figura 15.29. 

Logo, com base no resultado deste teste, podemos rejeitar a sua hipotese nula, ao nivel de significance de 5%, 
ou seja, o modelo proposto deve, de fato, ser estimado por efeitos fixos a fim de que seja assegurada a consisten¬ 
cy dos parametros. 

Schaffer e Stillman (2010), baseando-se em Arellano (1993), propoem um teste equivalente ao teste robusto 
de Hausman, ja que neste caso tambem sao considerados os erros-padrao robustos. Este teste, que oferece como 
output a estatistica X 2 de Sargan-Hansen, pode ser diretamente aplicado por meio do comando xtoverid, 
cujo procedimento, antes de tudo, deve ser instalado no Stata, por meio da digita^ao da seguinte sequencia de 
comandos: 

ssc install xtoverid 
ssc install ivreg2 
ssc install ivreg28 
ssc install ivreg29 

Feito isso, podemos elaborar o teste de Schaffer e Stillman, em que o comando xtoverid deve ser digi— 
tado logo apos a estima^ao do modelo por efeitos aleatorios com erros-padrao robustos com agrupamento por 
estudante. Sendo assim, temos: 


quietly xtreg desempenho horas faltas, re vce(cluster id) 
xtoverid 
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O resultado deste teste alternativo encontra-se na Figura 15.30. 


. quietly xtreg desempenho horas faltas, re vce(cluster id) 

. xtoverid 

Test of overidentifying restrictions: fixed vs random effects 
Cross-section time-series model: xtreg re robust cluster(id) 

Sargan-Hansen statistic 95.013 Chi-sq(2) P-value = 0.0000 

Figura 15.30 Output do teste de Schaffer e Stillman no Stata. 

Por meio do resultado do teste de Schaffer e Stillman apresentado na Figura 15.30, podemos corroborar o 
resultado do teste robusto de Hausman, ou seja, podemos escolher, como estima^ao dos parametros do modelo 
proposto, aquela elaborada por efeitos fixos. Apenas para fins didaticos, o mesmo resultado obtido na Figura 15.30 
poderia ser obtido se tivessemos digitado a seguinte sequencia de comandos logo apos a elabora^ao do teste ro¬ 
busto de Hausman: 

quietly xtreg desempenho horas faltas horas__fe faltas_fe, re vce 

(cluster id) 

test horas_fe faltas_fe 

Portanto, o modelo final estimado apresenta a seguinte expressao: 

desempenho it = 59,7102 + 0,3026. horas it — 0,3546 .faltas it 

Conforme discutimos nos capitulos anteriores, o comando predict yhat faz com que seja gerada uma no¬ 
va variavel (yhat) no banco de dados, que oferece os valores previstos do desempenho escolar de cada aluno em 
cada instante de tempo. 

Desta maneira, podemos elaborar a seguinte pergunta: Dado que estamos chegando ao termino do 25° 
mes, qual sera o desempenho escolar estimado para a aluna Renata no simulado que se aproxima, 
sabendo-se que, neste mesmo mes, ela estudou 25 horas e faltou a escola 10 vezes? 

Por meio do comando mfx elaborado imediatamente apos a estima^ao do modelo final por efeitos fixos (mo¬ 
delo escolhido), o Stata permite que esta pergunta seja diretamente respondida. Para tanto, devemos digitar a se¬ 
guinte sequencia de comandos: 

quietly xtreg desempenho horas faltas, fe 

mfx, at(horas=25 faltas=10) 

O output e apresentado na Figura 15.31 e, por meio dele, podemos chegar a resposta de 63,7304 pontos no 
simulado. 



Figura 15.31 Calculo da estimado de desempenho para valores das variaveis explicativas - comando mfx. 


Conforme discutem Islam (1995) e Favero (2013), a principal utilidade da modelagem de dados longitudinals 
e permitir que sejam analisadas as diferen^as que porventura ocorram entre individuos. Neste sentido, podemos 
analisar as diferen^as que existem nos comportamentos do desempenho escolar de cada estudante ao longo do 
tempo, com base na comparagao dos parametros que seriam estimados caso fosse elaborada uma regressao para 
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cada um deles. Estes resultados encontram-se na Figura 15.32, e sao obtidos por meio da digita^ao da seguinte 
sequencia de comandos: 

preserve 

statsby, by(id) clear: xtreg desempenho horas faltas, fe 

list, clean 

restore 


. preserve 

. statsby, by(id) clear: xtreg desempenho horas faltas, fe 
(running xtreg on estimation sample) 

command: xtreg desempenho horas faltas, fe 

by: id 

Statsby groups 

-+--- i —+— 2 —+— 3 4-+-5 


. list, clean 



id 

b horas 

b faltas 

b cons 

1 . 

1 

2.064133 

1.512688 

23.94053 

2. 

2 

.7953508 

.6191613 

62.86891 

3. 

3 

.6284018 

.3199885 

67.81872 

4. 

4 

.4343748 

-.1672624 

75.82246 

5. 

5 

.4112016 

-.3043137 

78.20905 

6. 

6 

.3767912 

-.668305 

78.63435 

7. 

7 

.3002092 

-.5869434 

83.94753 

8. 

8 

.2714739 

-.7686819 

80.95124 

9. 

9 

.1710006 

-.9053361 

91.62314 

10. 

10 

.3322318 

-.8689169 

84.67508 

11. 

11 

.8992634 

.3463004 

35.09618 

12. 

12 

-.1387866 

-.000521 

65.78081 

13. 

13 

.2507713 

.0057862 

55.95859 

14. 

14 

.4917654 

.084402 

49.87196 

15. 

15 

.3127261 

-.3993846 

61.99081 

16. 

16 

.3281358 

-.7258371 

61.39868 

17. 

17 

.2753752 

-.7010868 

67.51938 

18. 

18 

.3250333 

-.9626203 

63.89452 

19. 

19 

.155765 

-.6624474 

71.09241 

20. 

20 

.2832157 

-1.179114 

73.43339 

21. 

21 

.3356243 

.350193 

23.11619 

22. 

22 

.2121018 

.3323939 

26.9071 

23. 

23 

.5629825 

.4648302 

14.8653 

24. 

24 

.4527277 

.2502834 

22.97538 

25. 

25 

.2776047 

-.4431611 

42.22699 

26. 

26 

.3250965 

-.7615249 

43.93704 

27. 

27 

.2049804 

-.7628574 

52.67554 

28. 

28 

.2070542 

-.3576366 

39.70118 

29. 

29 

.2178876 

-.7262163 

51.22602 

30. 

30 

.1012433 

-.9884024 

58.73286 


. restore 


Figura 15.32 Parametros estimados por estudante. 


Como cada estudante agora e considerado individualmente, nao existe mais o efeito do painel nos dados, e, 
portanto, os estimadores dos parametros apresentados na Figura 15.32 tambem poderiam ser obtidos por meio 
da estima^ao por MQO de modelos individuals de regressao. Em outras palavras, a segunda linha da ultima se¬ 
quencia de comandos poderia ser naturalmente substituida por: 

statsby, by(id) clear: reg desempenho horas faltas 

Isso pode ser comprovaldo ao estimarmos por MQO os parametros de um modelo de regressao linear apenas 
para os dados do estudante com id = 1 (Gabriela). Para tanto, devemos digitar o seguinte comando: 

reg desempenho horas faltas if id==l 

Os parametros estimados encontram-se na Figura 15.33 e, por meio de sua analise, e possivel verificar que sao 
exatamente iguais aos apresentados na Figura 15.32 para o id - 1. 
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. reg desempenho horas faltas if id==l 


Source | 

SS 

df 

MS 

Number of obs 
F ( 2, 21) 

= 

24 

249.88 






Model | 

111.642871 

2 

55.8214354 

Prob > F 

= 

0.0000 

Residual | 

4.69121826 

21 

.223391346 

R-squared 

Adj R-squared 

= 

0.9597 

0.9558 






Total | 

116.334089 

23 

5.05800388 

Root MSE 

= 

.47264 


desempenho | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

horas | 

2.064133 

.0923384 

22.35 

0.000 

1.872105 

2.256161 

faltas | 

1.512688 

.0931143 

16.25 

0.000 

1.319046 

1.706329 

_cons | 

23.94052 

2.768745 

8.65 

0.000 

18.1826 

29.69844 


Figura 15.33 Estimagao dos parametros do modelo para apenas um aluno {id - 1). 


Embora o desempenho escolar mensal sofra, em media, influencia positiva da quantidade mensal de horas 
de estudo e negativa da quantidade mensal de faltas a escola, verifica-se, por meio dos outputs apresentados na 
Figura 15.32, que essas influences ocorrem de forma diferente e, para alguns estudantes, inclusive com sinal in- 
vertido em rela^ao a media geral. Os diferentes parametros estimados e a propria magnitude discrepante dos in- 
terceptos (constantes) expressam a importancia de se considerar a modelagem para dados em painel. 

153.2. Estima^ao de modelos longitudinals lineares de regressao para dados em painel longo 

Como muitas bases de dados apresentam periodicidade de divulga^ao mensal, trimestral ou anual, e comum 
que encontremos muitos estudos que fazem uso de paineis curtos, ja que o numero de individuos acaba ultrapas- 
sando o numero de periodos de divulga^ao dos dados nestas situates. Por outro lado, nada impede que o pes- 
quisador baseie seu estudo numa amostra menor de individuos ou utilize dados com frequencia de divulga^ao 
maior (diaria, por exemplo), fato que pode tornar necessaria a utiliza^ao de estimates especificas pela existencia, 
nestes casos, de bases de dados em painel longo. De qualquer maneira, e fundamental que a identifica^ao desta 
caracteristica na base de dados seja feita de forma anterior a modelagem propriamente dita. 

Analogamente ao exposto na se^ao 15.3.1 quando do estudo dos modelos longitudinals de regressao para da¬ 
dos em painel curto, iremos agora discutir as principals estimates existentes quando a base de dados apresentar 
muitos periodos para um numero relativamente menor de individuos, ou seja, quando estivermos diante de um 
painel considerado longo. 

Vamos inicialmente reescrever a expressao geral de um modelo longitudinal de regressao: 

Y it =a i + b v X lit + b 2 .X 2it + ...+b k .X kit +£ it (15.21) 

Assim como nos modelos longitudinals para dados em painel curto, os modelos longitudinals para dados em 
painel longo tambem podem ter seus parametros estimados por meio do metodo POLS. E, nestes casos, confor- 
me estudamos na se^ao 15.3.1, a sua expressao geral passa a ser escrita como: 

Y it = a+b v X Ut + b 2 .X 2it + ... + b k .X kit +u it (15.22) 

Entretanto, como, neste caso, a quantidade de periodos e consideravelmente maior do que a quantidade de indi¬ 
viduos na amostra, passa a ser necessaria a especifica^ao de um modelo que considere a existencia de correla^ao se¬ 
rial dos termos de erro. Neste sentido, diferentemente dos modelos longitudinals de regressao para dados em painel 
curto, em que podem ser considerados erros-padrao robustos com agrupamento por individuo, dado que n > T, 
em modelos longitudinals de regressao para dados em painel longo, os parametros da expressao (15.22) podem ser 
estimados por meio dos metodos POLS ou MQG (GLS), porem com a considera^ao de efeitos autorregressi- 
vos de primeira ordem AR(1) ao longo do tempo nos termos de erro u jt , dado que T > n. Assim, estes termos 
de erro passam a apresentar a seguinte expressao: 

u it~ Pi- u i,t-\ +£ u (15.23) 

em que p representa a correla^ao entre os termos de erro u jt e u. l V 

Segundo Cameron e Trivedi (2009), e importante ressaltar que, enquanto a estimagao POLS permite que os 
termos de erro u apresentem correla^ao serial de primeira ordem ao longo do tempo, a estimacao GLS permite, 
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alem disso, que estes termos de erro sejam heterocedasticos, ou seja, que apresentem correlagao diferente de zero 
entre os paineis. 

Alem disso, Hoechle (2007) tambem propoe que seja estimado um modelo por meio do metodo POLS com 
correlagao serial dos termos de erro nao necessariamente de primeira ordem, mas de qualquer ordem generica, 
ou seja, com efeitos autorregressivos de p-esima ordem AR(p). 

Quando da elaboragao da modelagem por efeitos fixos ou por efeitos aleatorios, tambem pode ser conside- 
rada a existencia de efeitos autorregressivos de primeira ordem AR(1) nos termos de erro u. t , de modo que a ex- 
pressao do modelo a ser estimado possa ser escrita da seguinte forma: 

Y it = a, + b v X Ut + b 2 .X 2it + ... + b k .X kit + p, ,u itA + £ it ^ 5 _ 24 ) 

em que o termo individual a pode ser um efeito fixo ou um efeito aleatorio, de acordo com o que foi discutido 
anteriormente. 

Frente ao exposto, na proxima segao serao elaboradas, por meio de um exemplo em Stata, modelagens para 
dados em painel longo por meio das estimagoes POLS com efeitos autorregressivos AR(1) e AR(p) e GLS com 
efeitos autorregressivos AR(1) com termos de erro heterocedasticos. Alem disso, tambem serao elaboradas as es¬ 
timagoes por efeitos fixos e por efeitos aleatorios com a consideragao de efeitos autorregressivos de primeira or¬ 
dem AR(1) nos termos de erro. Isso propiciara ao pesquisador uma oportunidade de comparagao dos parametros 
estimados em cada modelo, bem como dos respectivos erros-padrao. 

75.3.2.7. Estimagao de modelos longitudinals lineares de regressao para dados em painel 
longo no software Stata 

Imagine agora que o nosso professor tenha a intengao de abordar o mesmo problema estudado na segao 
15.3.1.1, porem fazendo uso apenas dos dados dos tres estudantes que obtiveram as melhores medias histo- 
ricas de desempenho escolar por classe. Logo, a nova amostra contem 9 individuos com dados provenien- 
tes dos mesmos 24 meses, totalizando 216 observagoes neste novo painel balanceado. Como T > n, estamos 
diante de um painel considerado longo. A base de dados completa pode ser acessada por meio dos arquivos 
DesempenhoPainelLongo.xls (Excel) e DesempenhoPainelLongo.dta (Stata). 

O modelo a ser estimado apresenta, novamente, a seguinte expressao: 

desempenho it = €X { + f\.horas it + f5 2 .faltas it 

Ao abrirmos o arquivo DesempenhoPainelLongo.dta e digitarmos o comando desc, poderemos no¬ 
vamente analisar as caracterfsticas do banco de dados e a descrigao das variaveis. A Figura 15.34 apresenta este 
output do Stata. 

Assim como elaborado na segao 15.3.1.1, e preciso inicialmente que os individuos e os perfodos de tempo 
sejam definidos, por meio do seguinte comando: 

xtset id t 


. desc 







obs: 

216 






vars: 

7 






size: 

6,048 

(99.9% of 

memory free) 





storage 

display 

value 




variable name 

type 

format 

label 

variable label 



estudante 

strl2 

%12s 





id 

byte 

%8.0g 


codigo do estudante 



classe 

strl 

%ls 


classe em que se encontra o 

estudante j| 

t 

byte 

%8.0g 


periodo (mes) 



desempenho 

float 

%8. Og 


desempenho escolar (nota de 

0 

a 100) 

horas 

float 

%9.0g 


quantidade mensal de horas de 

estudo 

faltas 

byte 

%8. Og 


quantidade mensal de faltas 

a 

escola 

| Sorted by: | 


Figura 15.34 Descrigao do banco de dados DesempenhoPainelLongo.dta. 
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. xtset id t 


panel variable: 

id (strongly balanced) 

time variable: 

t, 1 to 24 

delta: 

1 unit 


Figura 15.35 Defini<;ao do palnel no Stata. 


A Figura 15.36, obtida por meio da digita^ao do comando a seguir, apresenta a decomposi^ao de variancia 
para cada uma das variaveis do painel longo. 

xtsum id t desempenho horas faltas 


. xtsum id t desempenho horas faltas 


Variable 

1 

Mean 

Std. Dev. 

Min 

Max 

1 

Observations 










id 

overall | 

15.11111 

9.490591 

2 

30 

1 

N = 

216 


between ] 


10.04296 

2 

30 

1 

n = 

9 


within | 


0 

15.11111 

15.11111 

1 

T = 

24 

t 

overall | 

12.5 

6.938266 

1 

24 

1 

1 

N = 

216 


between | 


0 

12.5 

12.5 

1 

n = 

9 


within | 


6.938266 

1 

24 

1 

T = 

24 

desemp~o 

overall j 

62.2985 

19.56426 

28.49741 

94.81865 

1 

1 

N = 

216 


between | 


20.21001 

38.73057 

85.57858 

1 

n — 

9 


within | 


4.243807 

52.04375 

75.35982 

1 

a 

T = 

24 

horas 

overall | 

24.08611 

3.777447 

12.8 

37.3 

1 

1 

N = 

216 


between | 


.3247595 

23.64167 

24.80833 

l 

n = 

9 


within | 


3.76496 

12.95278 

37.45278 

1 

a 

T = 

24 

faltas 

overall | 

12.77778 

7.062951 

0 

25 

1 

l 

N = 

216 


between | 


7.304869 

2.666667 

22.66667 

l 

n = 

9 


within | 


1.494175 

10.11111 

15.11111 

l 

T = 

24 


Figura 15.36 Decomposigao de variancia para cada variavel no Stata. 


Assim como para o painel curto, enquanto as variaveis desempenho e faltas apresentam maior variancia between , 
a variavel horas apresenta maior variancia within para este painel longo balanceado. 

Como a influencia temporal pode ser significativa em paineis longos, e de fundamental importancia que se- 
ja verificada, inicialmente, a existencia de correla^ao serial de primeira ordem nos termos de erro. Para tanto, 
devemos elaborar o teste de Wooldridge, cuja operacionaliza^ao no Stata e feita por meio da seguinte sequen- 
cia de comandos proposta por Drukker (2003): 

findit xtserial 

net sj 3-2 st0039 

net install st0039 

xtserial desempenho horas faltas 

em que os tres primeiros comandos instalam o procedimento no Stata e o ultimo o aplica, por meio do coman¬ 
do xtserial. 

Os outputs do teste de Wooldridge encontram-se na Figura 15.37. 

Com base no resultado deste teste, podemos rejeitar a hipotese nula de que nao ha correla^ao serial de pri¬ 
meira ordem nos termos de erro, ao nivel de significance de 5%. Em outras palavras, dado que estamos diante de 
um painel longo de dados, devemos considerar, em nossas estimates, a existencia de efeitos autorregressivos de 
primeira ordem AR(1) nos termos de erro. 

Alem disso, a existencia de correla^ao entre os paineis, tambem chamada de correla^ao entre cross-sections ou 
correla^ao contemporanea, pode ser verificada por meio do teste de Pesaran. Para os dados do nosso exem- 
plo, o teste de Pesaran, cuja hipotese nula refere-se a nao existencia de termos de erro correlacionados entre es- 
tudantes e e elaborado apos uma estima?ao por efeitos fixos,pode ser aplicado por meio da digita^ao da seguinte 
sequencia de comandos: 
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. findit xtserial 
. net sj 3-2 st0039 


package st0039 from http://www.stata-journal.com/software/sj3-2 


TITLE 

SJ3-2 st0039. Testing for serial correlation in linear ... 
DESCRIPTION/AUTHOR(S) 

Testing for serial correlation in linear panel-data models 
by David M. Drukker, Stata Corporation 
Support: ddrukker@stata.com 

After installation, type help xtserial 

INSTALLATION FILES (type net install st0039) 

st0039/xtserial.ado 
st0039/xtserial.hip 

ANCILLARY FILES (type net get st0039) 

st0039/xtserial.do 


. net install st0039 

checking st0039 consistency and verifying not already installed... 
installing into c:\ado\plus\... 
installation complete. 

. xtserial desempenho horas faltas 

Wooldridge test for autocorrelation in panel data 
HO: no first-order autocorrelation 
F ( 1, 8) = 20.694 

Prob > F — 0.0019 


Figura 15.37 Teste de Wooldridge para verifica^ao de existencia de correla^ao serial de primeira ordem no Stata. 


ssc install xtcsd 

quietly xtreg desempenho horas faltas, fe 
xtcsd, pesaran abs 

em que o primeiro comando apenas instala no Stata o procedimento xtcsd. Os outputs gerados encontram-se na 
Figura 15.38. 

. quietly xtreg desempenho horas faltas, fe 
. xtcsd, pesaran abs 

Pesaran's test of cross sectional independence = 18.842, Pr = 0.0000 

Average absolute value of the off-diagonal elements = _ 0.641 _ 

Figura 15.38 Teste de Pesaran para verifica^ao de existencia de correla^ao entre cross-sections no Stata. 


Com base no resultado do teste de Pesaran apresentado na Figura 15.38, podemos rejeitar a hipotese nula de 
que nao ha correla^ao entre cross-sections , ao nivel de significance de 5%, o que permite que tambem seja consi- 
derada a existencia de termos de erro heterocedasticos, ou seja, que apresentam correla^ao entre os paineis, quan- 
do da estima^ao do modelo. Ressalta-se que nao e possivel aplicar o teste de Pesaran para paineis de dados muito 
desbalanceados. 

Elaboradas estas analises preliminares, vamos, entao, partir para as estimates do modelo proposto, seguindo o 
que foi discutido na se^ao anterior. Os comandos para a elabora^ao de cada uma delas sao: 

• Estima^ao POLS com efeitos autorregressivos de primeira ordem AR(1): 

xtpcse desempenho horas faltas, corr(arl) 

• Estima^ao POLS com efeitos autorregressivos de p-esima ordem AR(p): 

xtscc desempenho horas faltas 

• Estima^ao GLS com efeitos autorregressivos de primeira ordem AR(1) e termos de erro heterocedasticos: 

xtgls desempenho horas faltas, corr(arl) panels(correlated) 
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• Estima^ao por efeitos fixos com termos de erro AR(1): 

xtregar desempenho horas faltas, fe 

• Estima^ao por efeitos aleatorios com termos de erro AR(1): 

xtregar desempenho horas faltas, re 

E importante ressaltar que o comando xtpcse gera estimadores mais apropriados dos parametros do que o 
comando reg, uma vez que permite, por meio do metodo POLS, que seja considerada a existencia de correla^ao 
serial de primeira ordem ao longo do tempo, definida pelo termo corr(arl) . Alem disso, o comando xtgls, 
por meio do metodo GLS, ainda permite que sejam gerados estimadores com a considera^ao de existencia de 
correla^ao entre os paineis, definida pelo termo panels (correlated). 

Para efeitos didaticos, explicitamos, portanto, que os comandos a seguir geram estimadores identicos dos para¬ 
metros: 

xtpcse desempenho horas faltas, corr(arl) 

xtgls desempenho horas faltas, corr(arl) panels(iid) 

O comando xtscc permite que seja verificada a existencia de correla^ao serial de ordem maior do que 1 quan- 
do da estima^ao, por meio do metodo POLS, dos parametros do modelo. Alem disso, segundo Hoechle (2007), esta 
estima^ao pode gerar parametros apropriados quando for rejeitada a hipotese nula do teste de Pesaran, ou seja, quan- 
do for identificada a existencia de correla^ao entre os paineis, uma vez que considera, quando da estima^ao dos pa¬ 
rametros do modelo, erros-padrao de Driscoll e Kraay (1998).Antes da elabora^ao desta especifica estima^ao no 
Stata, devemos instalar o procedimento xtscc por meio da digita^ao do comando ssc install xtscc. 

Ao contrario da logica proposta na se^ao 15.3.1.1, nao iremos novamente apresentar individualmente cada 
um dos outputs, uma vez que ja partiremos para a analise dos resultados consolidados em uma unica tabela. Para 
tanto, vamos digitar a seguinte sequencia de comandos: 

quietly xtpcse desempenho horas faltas, corr(arl) 
estimates store POLSarl 

quietly xtscc desempenho horas faltas 
estimates store POLSarp 

quietly xtgls desempenho horas faltas, corr(arl) panels(correlated) 

estimates store GLSarlpcorr 

quietly xtregar desempenho horas faltas, fe 

estimates store EFarl 

quietly xtregar desempenho horas faltas, re 
estimates store EAarl 

estimates table POLSarl POLSarp GLSarlpcorr EFarl EAarl, b se 

Os outputs gerados encontram-se na Figura 15.39. 

De acordo com os resultados apresentados nesta figura, e possivel verificar que os parametros estimados tam- 
bem variam entre os modelos. Ao considerarmos a existencia de termos de erro serialmente correlacionados, 
podemos verificar que ocorre uma redu^ao dos erros-padrao dos parametros da variavel horas e da constante para 
os modelos estimados por efeitos fixos e por efeitos aleatorios. Entretanto, ao permitirmos que ocorra correla^ao 
entre as cross-sections quando da estima^ao do modelo pelo metodo GLS, os erros-padrao dos parametros estima¬ 
dos passam a ser ainda mais baixos em compara^ao aos obtidos pelos modelos estimados por efeitos fixos e por 
efeitos aleatorios com termos de erro AR(1). Como consequencia, embora todos os modelos apresentem signi¬ 
ficance estatistica, no modelo estimado pelo metodo GLS os parametros estimados das variaveis horas e faltas sao 
estatisticamente mais significantes. 

Para modelagens que fazem uso de bancos de dados em painel longo, a considera^ao de termos de erro AR(1) 
pode resultar em modelos mais apropriados do que se forem considerados apenas termos de erro independentes 
e identicamente distribuidos. Mais do que isso, a considera^ao da existencia de correlafao entre os paineis pode 
gerar estimativas dos parametros ainda mais eficientes, como ocorre para os dados do nosso exemplo. 
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. quietly xtpcse desempenho horas faltas, corr(arl) 

. estimates store POLSarl 

. quietly xtscc desempenho horas faltas 
. estimates store POLSarp 

. quietly xtgls desempenho horas faltas, corr(arl) panels(correlated) 
. estimates store GLSarlpcorr 

. quietly xtregar desempenho horas faltas, fe 
. estimates store EFarl 

. quietly xtregar desempenho horas faltas, re 
. estimates store EAarl 


. estimates table POLSarl POLSarp GLSarlpcorr EFarl EAarl, b se 


Variable | 

POLSarl 

POLSarp 

GLSarlpc~r 

EFarl 

EAarl 

horas | 

.39617062 

.09490018 

.18941949 

.3149296 

.25992397 


.19986038 

.23097359 

.06202029 

.07942865 

.08947258 

faltas | 

-2.4110238 

-2.514868 

-2.4105773 

.06825517 

-1.2020137 


.07983652 

.03427662 

.02616776 

.22217705 

.18525525 

_cons | 

83.484208 

92.147152 

89.031576 

53.976178 

71.378516 


5.0934538 

5.4716928 

2.0850516 

3.0096948 

3.8536253 


legend: b/se 


Figura 15.39 Outputs consolidados das estimates do modelo proposto. 


Para que possa ser gerado um grafico que compara os valores previstos do desempenho escolar ao longo 
do tempo obtidos por meio de cada uma das estimates elaboradas, devemos digitar a seguinte sequencia de 
comandos: 


quietly xtpcse desempenho horas faltas, corr(arl) 
predict yhat_POLSarl 

quietly xtscc desempenho horas faltas 
predict yhat_POLSarp 

quietly xtgls desempenho horas faltas, corr(arl) panels(correlated) 
predict yhat_GLSarlpcorr 

quietly xtregar desempenho horas faltas, fe 
predict yhat_EFarl 

quietly xtregar desempenho horas faltas, re 
predict yhat_EAarl 

graph twoway scatter desempenho t || Ifit yhat_POLSarl t || Ifit 
yhat_POLSarp t || Ifit yhat_GLSarlpcorr t || Ifit yhat_EFarl t II Ifit 
yhat_EAarl t ||, legend(label(2 "POLSarl") label(3 "POLSarp") label(4 
"GLSarlpcorr") label(5 "EFarl") label(6 "EAarl")) 


O grafico gerado encontra-se na Figura 15.40. 

Por meio deste grafico, e possivel verificarmos que, enquanto os modelos estimados por efeitos fixos e por 
aleatorios capturam com menores inclinafoes a evolufao temporal do desempenho escolar dos estudantes, os 
modelos estimados pelos metodos POLS e GLS acabam se ajustando aos dados por meio de maiores inclina^oes 
ao longo do tempo. O mesmo pode ser observado quando comparamos os valores previstos do desempenho es¬ 
colar obtidos pelas estimates propostas em fun^ao, por exemplo, da variavel^a/to. Este novo grafico encontra-se 
na Figura 15.41, e pode ser obtido por meio do seguinte comando: 

graph twoway scatter desempenho faltas || lfit yhat_POLSarl faltas || 

If it yhat_J?OLSarp faltas | | lfit yhat__GLSarlpcorr faltas | | lfit 
yhat_EFarl faltas || lfit yhat_EAarl faltas ||, legend(label(2 
"POLSarl") label (3 "POLSarp") label(4 "GLSarlpcorr") label(5 "EFarl") 
label(6 "EAarl")) 
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Figura 15.40 Compara^ao dos valores previstos do desempenho escolar 
ao longo do tempo obtidos pelas estimates propostas. 



Figura 15.41 Compara^ao dos valores previstos do desempenho escolar obtidos 
pelas estimates propostas em fungao da variavel faltas. 


Embora os valores previstos gerados pelos metodos POLS e GLS sejam mais proximos, tivemos condi^oes de 
verificar, com base nos outputs apresentados na Figura 15.39, que os estimadores dos parametros obtidos por GLS 
apresentam erros-padrao de menor magnitude. 

Os modelos longitudinais lineares de regressao tern sido cada vez mais utilizados e aplicados, entre outras ra- 
zoes, pela propria evolugao computacional, e seus metodos de estimafao nao se restringem ao que foi apresenta- 
do e discutido nesta se$ao, cujo objetivo principal e o de propiciar ao pesquisador uma visao geral dos principals 
conceitos e tecnicas, com respectivas aplica^oes em Stata. 

Se, por exemplo, um pesquisador tiver a inten^ao de inserir, como variavel explicativa, a propria variavel de- 
pendente defasada, dado que esta apresenta evoluf ao temporal, podera partir para a estima^ao de modelos mais 
complexos do tipo Arellano-Bond. Em outra situa^ao, caso deseje investigar as razoes individuals que, embora 
nao se alterem ao longo do periodo de estudo, como sexo ou religiao, levam cada um dos individuos a apresentar 
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comportamentos diferentes entre si para a variavel dependente ao longo do tempo, podera partir para a estima^ao 
de modelos hierarquicos, tambem conhecidos por modelos multimvel, a serem estudados no proximo capitulo. 

As possibilidades de questoes de pesquisa sao infindaveis e, neste sentido, o conhecimento sobre a aplicagao 
da tecnica correta para cada caso pode representar a diferen^a entre a obten^ao de modelos inconsistentes e vie- 
sados e a obten^ao de modelos apropriados para o estudo do fenomeno em questao e para a elabora^ao de pre- 
visoes. Para o aprofundamento do conhecimento relativo a estas tecnicas, recomendamos o estudo de Cameron 
eTrivedi (2009). 


15.4. MODELOS LONGITUDINAIS NAO LINEARES 

Quando os dados de uma base tambem variam entre individuos e ao longo do tempo, porem a variavel de¬ 
pendente apresenta dados qualitativos com valores dicotomicos ou dados quantitativos que assumem valores dis- 
cretos positivos e restritos a determinado numero de ocorrencias, devemos abordar o problema por meio dos 
modelos longitudinals nao lineares de regressao. Enquanto, no primeiro caso, serao discutidas as principals estima¬ 
tes pertinentes aos modelos longitudinals logisticos (se^ao 15.4.1), no segundo caso discutiremos as estimates 
pertinentes aos modelos longitudinals Poisson e binomial negativo (se$ao 15.4.2), respeitando a logica proposta 
nos Capitulos 13 e 14. Em ambas as situates, sera dado destaque para as estimates dos modelos por GEE , por 
efeitos fixos e por efeitos aleatorios. 


15.4.1 • Estimato de modelos longitudinals logisticos 

Nos modelos longitudinals logisticos, a expressao geral da chance de ocorrencia do evento em estudo para 
determinado individuo i em um especifico instante de tempo t, representado por Y = 1, e definida de acordo 
como segue: 

In (chance Yii=] ) = a,■+ P v X Ut + (3 2 .X 2it + ... +(3 k .X kit (15.25) 


que resulta, conforme estudamos no Capitulo 13, na seguinte expressao de probabilidade de ocorrencia do even¬ 
to de interesse: 


e ( a i+P\-X\it+p2- x 2it+-+Pk- X kit) 

\ _|_ e { a i + Pl- x \it+p2 X 2it+-+Pk- X kit) 


(15.26) 


e que apresenta parametros que podem ser estimados com base na maximiza^ao do logaritmo da fun^ao de ve- 
rossimilhan^a tambem apresentada e discutida no Capitulo 13, cuja expressao e reproduzida a seguir para as situ¬ 
ates em que existem dados longitudinals: 




t -1 i=l 


(n)-in 


(Cij+Pi .X lit +P 2 - X 2ilt+-+Pk- X kiit) 


1 + e 1 


(Ofj'+ft .X iit+p 2 ■ X 2it+-+Pk- X kit) 


\\ 

( 

+ 

(l-y„).ln 

jj 

L V 


1 


1 + e 1 


( a i+Pl- X U t +p2- X 2it + --+Pk- X kit) 




(15.27) 


Analogamente aos modelos lineares, a primeira e mais simples estimagao dos parametros de um modelo longi¬ 
tudinal logistico, que e elaborada por meio do metodo de maxima verossimilhanga, e conhecida por Pooled Logit 
por considerar que a base de dados seja uma grande cross-section. Assim como para a estima^ao POLS , no entanto, 
a estima?ao Pooled Logit tambem deve considerar a existencia de erros-padrao robustos com agrupamento 
por individuo, a fim de que haja o controle da correla^ao dos termos de erro para dado individuo ao longo do 
tempo, conforme discutem Cameron eTrivedi (2009). 

Alem da tradicional estima^ao Pooled Logit , que gera correlates entre termos de erro iguais a zero para dois 
quaisquer periodos de tempo distintos e para dado individuo (p ts = 0, t ^ 5), e possivel que os parametros do mo¬ 
delo sejam estimados levando-se em considera^ao a existencia de correlates diferentes de zero entre termos de 
erro provenientes de periodos de tempo distintos. Neste caso, a estimagao mais comum e aquela em que sejam 
consideradas correlates iguais (diferentes de zero) entre os termos de erro para dois periodos de tempo distin¬ 
tos, ou seja, em que os termos de erro sejam equicorrelacionados (p = p). Esta estima^ao, conhecida por PA 
(Population-Averaged Estimation), tambem sera elaborada quando da aplica^ao, em Stata, de um exemplo pratico de 
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modelos longitudinals logisticos, embora tambem seja aplicavel para modelos lineares, conforme discutimos na 
se^ao 15.3.1.1. 

Ressalta-se que as estimates Pooled Logit e PA Logit inserem-se dentro do que e conhecido por GEE 
(Generalized Estimating Equations ), conforme poderemos verificar quando da estima^ao dos parametros do mo- 
delo na proxima se$ao. 

Assim como para os modelos lineares, os parametros do modelo apresentado na expressao (15.26) podem ser 
estimados por efeitos fixos ou por efeitos aleatorios, levando-se em considera^ao que a seja, respectivamente, um 
efeito fixo ou um efeito aleatorio. 

Na proxima se^ao, serao elaboradas, por meio de um exemplo em Stata, diferentes estimates de modelos 
longitudinals logisticos, como a Pooled Logit , a PA Logit e aquelas definidas por efeitos fixos e por efeitos ale¬ 
atorios. Para um maior aprofundamento da teoria pertinente a estas estimates, recomendamos o estudo de 
Neuhaus, Kalbfleisch e Hauck (1991), Neuhaus (1992), Cameron eTrivedi (2009) e Hubbard et ah (2010). 


15.4.1.1. Estimaqao de modelos longitudinals logisticos no software Stata 

Seguindo a logica adotada, vamos elaborar um exemplo pratico. Para tanto, imagine que o nosso mesmo pro¬ 
fessor tenha, neste momento, a inten^ao de investigar se as variaveis horas e faltas influenciam o fato de um es- 
tudante, em determinado mes, apresentar notas acima da media em todas as disciplinas que estiver cursando, ou 
seja, deseja saber se a quantidade mensal de horas de estudo e quantidade mensal de faltas a escola interferem na 
probabilidade de que um estudante apresente notas acima da media em todas as materias em um especifico mes. 

A base de dados e muito similar a que foi utilizada na se$ao 15.3.1.1, ou seja, possui dados dos ultimos 24 
meses dos mesmos 30 alunos (sendo 10 alunos provenientes de cada classe), totalizando 720 observa^oes, porem 
a variavel dependente agora e qualitativa dicotomica (dummy), em que um valor igual a 0 refere-se a existencia 
de pelo menos uma nota abaixo da media em alguma disciplina no mes em analise, e um valor igual a 1 indica 
que, naquele mes, o estudante obteve notas acima da media em todas as materias. Parte do banco de dados ela- 
borado encontra-se naTabela 15.5, porem a base de dados completa pode ser acessada por meio dos arquivos 
MediaAcimaPainelLogistico.xls (Excel) e MediaAcimaPainelLogistico.dta (Stata). 

Portanto, o modelo probabilistic a ser estimado apresenta a seguinte expressao: 


P( 


notas acima da media em todas as diciplinas)i£ 


e ( a i+Pl ■horas it +p 2 -fa1tas it ) 

l _|_ e ( a i + Pl- homs it + P2-faltasit) 


Tabela 15.5 Exemplo: notas acima da media nas disciplinas, horas de estudo e faltas por mes. 


Estudante 

id 

Classe 

Periodo t (mes) 

Notas acima da 
media em todas as 
disciplinas (Dummy 
Sim = 1; Nao = 0) 

oy 

Quantidade 
de horas de 
estudo ( X 1U ) 

Quantidade 
de faltas 
a escola ( X 2U ) 

Gabriela 

1 

A 

1 

1 

21,6 

8 

Gabriela 

1 

A 

2 

1 

22,8 

8 

Gabriela 


Gabriela 

1 

A 

24 

1 

27,3 

5 

Patricia 

2 

A 

1 

1 

21,6 

7 

Patricia 

2 

A 

2 

1 

21,8 

7 

Patricia 


Patricia 

2 

A 

24 

1 

25,3 

4 



Carolina 

30 

C 

1 

0 

20,6 

24 

Carolina 

30 

C 

2 

0 

12,8 

24 

Carolina 


Carolina 

30 

c 

24 

0 

29,3 

21 
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Ao abrirmos o arquivo MediaAcimaPainelLogistico.dta e digitarmos o comando desc, poderemos 
sar as caracteristicas do banco de dados e a descri^ao das variaveis. A Figura 15.42 apresenta este output do 


anali- 

Stata. 


. desc 






obs: 

720 





vars: 

7 





size: 

20,160 

(99.9% of 

memory free) 




storage 

display 

value 



variable name 

type 

format 

label 

variable label 


estudante 

strl2 

%12s 




id 

byte 

%8.0g 


codigo do estudante 


classe 

strl 

% Is 


classe em que se encontra o estudante 

t 

byte 

%8.0g 


periodo (mes) 


media 

float 

%9.0g 

media 

notas acima da media 
disciplinas? 

em todas as 

horas 

float 

%9.0g 


quantidade mensal de 

horas de estudo 

faltas 

byte 

%8.0g 


quantidade mensal de 

faltas a escola 

| Sorted by: | 


Figura 15.42 Descrigao do banco de dados MediaAcimaPainelLogistico.dta. 


Antes de estimarmos os modelos propriamente ditos, e preciso inicialmente que os individuos e os periodos 
de tempo sejam definidos, por meio do seguinte comando: 

xtset id t 


. xtset id t 



panel 

variable: 

id (strongly balanced) 

time 

variable: 

t, 1 to 24 


delta: 

1 unit 


Figura 15.43 Defini<;ao do painel no Stata. 


Conforme ja discutimos quando da apresenta^ao da Figura 15.12, enquanto a variavel horas apresenta maior 
variancia within , a variavel faltas possui maior variancia between. Como a variavel dependente media e qualitativa, 
nao faz sentido discutirmos a sua decomposigao de variancia. Entretanto, por meio do Stata, e possivel analisar- 
mos como se comporta esta variavel em termos de frequencia global e em termos de transi^ao de suas categorias 
ao longo do tempo. 

Inicialmente, a fim de que seja possivel gerar a tabela de frequencias da variavel media , devemos digitar o se¬ 
guinte comando: 

tab media 

Por meio da Figura 15.44, podemos perceber que nao existem diferen^as consideraveis entre a quantidade de 
meses em que determinado estudante apresentou alguma nota abaixo da media e quantidade de meses em que 
apresentou todas as notas acima da media. 


. tab media 




notas acima | 
da media em | 
todas as | 
disciplinas | 

? 1 

Freq. 

Percent 

Cum. 

i Nao | 

Sim | 

386 

334 

53.61 

46.39 

53.61 

100.00 

Total | 

720 

100.00 



Figura 15.44 Distribui^ao de frequencias da variavel media. 
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Entretanto, o comando xttrans permite que investiguemos como esta variavel se comporta ao longo do 
tempo. Para tanto, vamos digitar: 

xttrans media 

Os outputs obtidos encontram-se na Figura 15.45. 


I . xttrans media 



notas 
acima da 
media em 
todas as 
disciplina 
s? 

1 

1 

| notas acima da media 
| em todas as 

| disciplinas? 

1 0 1 | 

Total 

0 

1 

1 

1 

90.91 9.09 | 

3.61 96.39 | 

100.00 

100.00 

Total 

1 

52.32 47.68 | 

100.00 


Figure 15.45 Comportamento de transi^ao da variavel media. 

Por meio dos resultados apresentados nesta figura, e possivel verificarmos que existe consideravel persistencia 
do comportamento da variavel media mes a mes, ou seja, enquanto 90,91% dos meses em que nao foram obti- 
das todas as notas acima da media para determinado estudante apresentaram o mesmo comportamento no mes 
seguinte, 96,39% dos meses em que foram obtidas todas as notas acima da media para um especifico estudante 
presenciaram a mesma caracteristica no mes subsequente. 

Elaboradas estas analises preliminares, vamos partir para as estimates do modelo propriamente dito, seguindo 
o que foi discutido na se^ao anterior. Os comandos para a elabora^ao de cada uma das estimates sao: 

• Estima^ao Pooled Logit com erros-padrao robustos com agrupamento por estudante: 

logit media horas faltas, vce(cluster id) 

ou 

glm media horas faltas, family(binomial) vce(cluster id) 

ou 

xtlogit media horas faltas, pa corr(independent) vce(rob) 

ou 

xtgee media horas faltas, family(binomial) corr(independent) vce(rob) 

Os quatro comandos fazem com que sejam estimados exatamente os mesmos parametros do modelo propos- 
to. O termo pa corr (independent) do comando xtlogit considera a existencia de correlates entre termos 
de erro iguais a zero para dois quaisquer perfodos de tempo distintos e para dado individuo, que e o que tambem 
considera a estima^ao tradicional elaborada por meio do comando logit. Ja o comando xtgee, conforme dis¬ 
cutido na se^ao 15.3.1.1, equivale ao comando glm utilizado nos tres capitulos anteriores e o termo family () 
informa a distribui^ao da variavel dependente que, neste caso, e binomial. Desta forma, logo apos a estima^ao 
elaborada especificamente por meio do comando xtlogit, o pesquisador pode digitar o comando matrix list 
e (R) (ou o comando estat wcorr logo apos a estima^ao por meio do comando xtgee), que faz com que seja 
gerada a matriz de correlates entre os termos de erro para os 24 periodos de tempo do nosso exemplo ( within 
id correlation matrix), que, conforme ja esperavamos, apresenta todos os valores iguais a zero. 

• Estima^ao PA Logit com erros-padrao robustos: 

xtlogit media horas faltas, pa corr(exchangeable) vce(rob) 

ou 

xtgee media horas faltas, family(binomial) corr(exchangeable) vce(rob) 

Neste caso, os dois comandos tambem geram estimadores identicos dos parametros. O termo corr (exchan¬ 
geable) faz com que sejam consideradas correlates iguais (diferentes de zero) entre os termos de erro para dois 
periodos de tempo distintos (termos de erro equicorrelacionados). Este fato pode ser comprovado ao digitarmos 
o comando matrix list e (R) logo apos a estima^ao elaborada por meio do comando xtlogit (ou o comando 
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estat wcorr logo apos a estima^ao por meio do comando xtgee), que, para os dados do nosso exemplo, gera 
uma matriz em que todas as correlates entre os termos de erro, mes a mes, sejam iguais a 0,074. 

• Estima^ao por efeitos fixos: 

xtlogit media horas faltas, fe nolog 

• Estimagao por efeitos aleatorios: 

xtlogit media horas faltas, re nolog 

Em vez de apresentarmos os outputs especificos de cada uma das estimates propostas,vamos diretamente apresenta- 
los em uma unica tabela de resultados consolidados. Para tanto, vamos digitar a seguinte sequencia de comandos: 

quietly logit media horas faltas, vce(cluster id) 
estimates store LOGITrob 

quietly xtlogit media horas faltas, pa corr(exchangeable) vce(rob) 
estimates store PA 

quietly xtlogit media horas faltas, fe nolog 
estimates store EF 

quietly xtlogit media horas faltas, re nolog 
estimates store EA 

estimates table LOGITrob PA EF EA, equations(1) b se stats(N 11 
sigma_u rho) 

Os resultados encontram~se na Figura 15.46. 

Inicialmente, podemos verificar que os parametros estimados pelos metodos propostos apresentam coe- 
rencia em termos de sinal. Mais do que isso, apresentam bastante similaridade, com destaque para aqueles obtidos 
pelos metodos Pooled e PA. Com exce^ao do termo referente a constante do modelo Pooled Logit , todos os de- 
mais parametros mostraram-se estatisticamente diferentes de zero ao mvel de significance de 5% (Sig. z < 0,05), 


Hi . quietly logit media horas faltas, vce (cluster id) 

-1 

I . estimates 

store LOGITrob 



I . quietly xtlogit media horas faltas, pa 

corr(exchangeable) vce(rob) 1 

1 . estimates 

store PA 



I . quietly xtlogit media horas faltas, fe nolog 


1 . estimates 

store EF 



1 . quietly xtlogit media horas faltas, re 

nolog 


. estimates 

store EA 



. estimates 

table LOGITrob PA EF EA, equations(1) b 

se stats(N 11 sigma_u rho) 

Variable 

1 

LOGITrob PA 

EF 

EA 

#1 

1 




horas 

1 

.11108887 .11392233 

.07737606 

.08787229 


1 

.0314652 .0329065 

.03684966 

.03576458 

faltas 

1 

-.34342535 -.39707386 

-1.7431134 

-1.4070667 


1 

.03254784 .05244581 

.16693658 

.17767139 

cons 

1 

1.9137651 2.6012719 


17.391759 


1 

1.0435351 1.1180152 


2.8923025 

lnsig2u 

1 




1 cons 

1 



3.6435629 


1 



.40149888 

Statistics 

i 




N 

1 

720 720 

720 

720 

11 

1 

-287.86599 

-130.86115 

-250.51882 

sigma_u 

1 



6.1828632 

rho 

1 



.9207598 

p legend: b/se | 


Figura 15.46 Outputs consolidados das estimates do modelo logistico proposto. 
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embora os erros-padrao da variavel faltas tenham se mostrado superiores para os modelos estimados por efeitos 
fixos e por efeitos aleatorios. 

Como o modelo longitudinal logistico estimado por efeitos fixos tem seus parametros estimados ao se elimi- 
narem os efeitos individuals a. pelo metodo conhecido por MLE (.Maximum Likelihood Estimator), o parametro 
correspondente a constante nao e estimado, assim como o parametro de determinada variavel que eventualmente 
apresente dados que nao sejam alterados ao longo do tempo (fato que, neste exemplo, nao acontece). Mais do que 
isso, na estima^ao por efeitos fixos nao sao considerados os individuos que eventualmente apresentarem, para a 
variavel dependente, somente valores iguais a zero ou somente valores iguais a 1 em todos os periodos de tempo 
(fato que, neste exemplo, tambem nao ocorre). 

Conforme discutem Neuhaus, Kalbfleisch e Hauck (1991), e importante enfatizar que, enquanto d 3 represen- 
ta,para os modelos estimados por efeitos fixos ou aleatorios, a chance de ocorrencia do evento em estudo quando 
se aumenta em 1 unidade o valor de determinada variavel X em compara^ao a nao se alterar esta variavel para 
o mesmo individuo, ceteris paribus, e& representa, para os modelos estimados por PA, a chance de ocorrencia do 
evento quando se aumenta em 1 unidade o valor de determinada variavel X em compara^ao a nao ser alterada 
esta variavel, tambem ceteris paribus, para um individuo selecionado aleatoriamente na base de dados 
(individuo “medio”, que da o nome a estima^ao de Population-Averaged Estimation). 

Embora os estimadores dos parametros obtidos por efeitos fixos e por efeitos aleatorios nao sejam, portanto, 
diretamente comparaveis aos obtidos pelos metodos Pooled ou PA, acabaram sendo proximos para os dados do 
nosso exemplo, principalmente para a variavel horas. 

Estimados os modelos, temos condi^oes de calcular as probabilidades previstas de ocorrencia do evento em 
estudo (obten^ao de notas acima da media em todas as disciplinas em determinado mes), para um mesmo estu- 
dante ou para um estudante escolhido aleatoriamente na base de dados.Vamos, entao, elaborar dois graficos que 
mostram a rela^ao entre as probabilidades previstas de ocorrencia do evento em estudo, obtidas por meio das 
estimates propostas, e cada uma das variaveis explicativas. Para tanto, devemos digitar a seguinte sequencia de 
comandos: 


quietly logit media horas faltas, vce(cluster id) 
predict phat_logit 


quietly 

predict 

quietly 

predict 

quietly 

predict 


xtlogit media 
phat_j?a 

xtlogit media 
phat^ef, puO 

xtlogit media 
phat_ea, puO 


horas 

faltas, 

pa 

horas 

faltas. 

fe 

horas 

faltas, 

re 


corr(exchangeable) 

nolog 

nolog 


vce(rob) 


graph twoway scatter media horas | | mspline phat_logit horas | | mspline 
phatjpa horas | | mspline phat_ef horas | | mspline phat_ea horas | | , 
legend(label(2 "Pooled Logit") label(3 "PA") label(4 "Efeitos Fixos") 
label(5 "Efeitos Aleatorios")) 


graph twoway scatter media faltas || mspline phat_logit faltas || 
mspline phatjpa faltas || mspline phat_ef faltas || mspline phat_ea 
faltas ||, legend(label(2 "Pooled Logit") label(3 "PA") label (4 "Efeitos 
Fixos") label(5 "Efeitos Aleatorios")) 


Os dois graficos gerados encontram-se nas Figuras 15.47 e 15.48. 

Embora o valor do logaritmo da fun^ao de verossimilhan^a seja maior para a estima^ao por efeitos fixos 
(Figura 15.46), podemos perceber que os valores de previsao acabam nao se ajustando adequadamente aos dados 
(Figuras 15.47 e 15.48), pelo fato de esta estima^ao nao levar em considera^ao a existencia dos efeitos individual 
a., o que faz com que o parametro correspondente a constante nao seja estimado. 

Por outro lado, o modelo estimado por efeitos aleatorios e aqueles estimados pelos metodos Pooled e PA Logit 
apresentam comportamentos semelhantes da probabilidade prevista de obten^ao de notas acima da media em to¬ 
das as disciplinas, mesmo que, pelas razoes discutidas, seus parametros nao sejam diretamente comparaveis. 
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• notas acima da media em todas as disciplinas? . Pooled Logit 

. PA - Efeitos Fixos 

- Efeitos Aleatorios 


V_ J 

Figura 15.47 Valores previstos da variavel dependente para cada estima^ao em fun^ao da variavel explicativa horos. 





• notas acima da media em todas as disciplinas? . Pooled Logit 

. PA - Efeitos Fixos 

- Efeitos Aleatorios 


V_ J 

Figura 15.48 Valores previstos da variavel dependente para cada estima^ao em fun^ao da variavel explicativa faltas. 

Desta forma, para o modelo estimado por efeitos aleatorios, o parametro 0,0878 da variavel horns significa que 
o aumento de 1 hora de estudo ao mes, em media e ceteris paribus , incrementa o logaritmo da chance de obten- 
£ao de notas acima da media em todas as disciplinas, para um mesmo estudante, em 8,78%, ou seja, a sua chance 
e multiplicada por um fator de e 0,0878 = 1,092 (9,2% maior). 

Ja para o modelo estimado pelo metodo PA, o parametro 0,1139 da mesma variavel significa que o aumento 
de 1 hora de estudo ao mes, em media e ceteris paribus, incrementa o logaritmo da chance de obten^ao de notas 
acima da media em todas as disciplinas, para um estudante “medio” escolhido aleatoriamente, em 11,39%, ou seja, 
a chance media e multiplicada por um fator de e 0,1139 = 1,121 (12,1% maior). 

Enquanto a media da variavel horas, quando sao obtidas notas acima da media em todas as disciplinas, e bastan- 
te similar a sua media quando este fato nao e verificado, o mesmo nao pode ser dito em rela^ao a variavel faltas, 
que apresenta media aproximadamente o dobro quando pelo menos uma nota encontra-se abaixo da media. Tal 
fato pode ser verificado por meio da digita^ao do seguinte comando: 

tabstat horas faltas, by(media) 
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1 . tabstat 

horas faltas, by(media) | 

| Summary statistics: 

mean ' 

1 by categories of: 

media (notas acima da media em todas as disciplinas?) 

media ] 

horas 

faltas 

- +-- 



Nao | 

23.53264 

18.26684 

Sim | 

24.59102 

9.428144 

-+-- 



Total | 

24.02361 

14.16667 


Figura 15.49 Medias de horas e foltos quando Y = 0 e Y = 1 . 


Os outputs encontram-se na Figura 15.49. 

Como a variavel horas apresenta medias muito similares quando Y = 0 e quando Y= l,fato que pode inclusi¬ 
ve ser notado ao analisarmos a dispersao de pontos da Figura 15.47, os ajustes dos valores previstos de probabili- 
dade de ocorrencia do evento ficam prejudicados. Por outro lado, a discrepancia entre os valores medios d e faltas 
quando todas as notas estao acima da media ou quando existe pelo menos uma nota abaixo da media faz com que 
os ajustes dos valores previstos de probabilidade de ocorrencia do evento sejam mais adequados (Figura 15.48). 

15.4.2. Estimagao de modelos longitudinals Poisson e binomial negativo 

Nos modelos longitudinals Poisson e binomial negativo, a expressao geral a ser estimada e definida de acordo 
como segue, em que a variavel Y apresenta dados quantitativos que assumem valores discretos positivos e com 
possibilidades restritas que representam quantidades de ocorrencias (dados de contagem) do evento em estudo 
para determinado individuo i em um especifico instante de tempo t: 

hi(Y t ) = a l +P 1 .X Vt + P 2 .X 2U +... + p k .X Ut (15.28) 

Conforme estudamos no Capitulo 14, caso a media da variavel dependente seja igual a sua variancia, partiremos 
para a defini^ao de um modelo Poisson. Caso esta propriedade seja violada pela existencia de superdispersao nos 
dados, trabalharemos com um modelo binomial negativo. Para ambos os casos, valem os conceitos referentes as esti¬ 
mates Pooled e PA, que tambem se inserem dentro do que e conhecido por GEE (Generalized Estimating Equations). 

Para um maior aprofundamento da teoria pertinente a estas estimates, recomendamos o estudo de Hausman, 
Hall e Griliches (1984),Wooldridge (2005) e Cameron eTrivedi (2013). 

15.4.2.1. Estimagao de modelos longitudinals Poisson e binomial negativo no software Stata 

Imagine agora, ja tendo estudado o comportamento dos alunos em relagao a possuirem ou nao notas acima da 
media em todas as disciplinas em cada um dos meses em analise, que o nosso professor tenha, neste momento, a inten- 
gao de investigar se as mesmas variaveis horas e faltas influenciam a quantidade de disciplinas com nota abaixo da 
media para cada um dos estudantes em cada um dos periodos de tempo em que foram coletados os dados. 

A base de dados continua sendo muito similar a que foi utilizada nas se^oes anteriores, ou seja, possui da¬ 
dos dos ultimos 24 meses dos mesmos 30 alunos (sendo 10 alunos provenientes de cada classe), totalizando 720 
observances, porem a variavel dependente agora apresenta dados de contagem. Parte do banco de dados ela- 
borado encontra-se naTabela 15.6, porem a base de dados completa pode ser acessada por meio dos arquivos 
QuantNotasPainelContagem.xls (Excel) e QuantNotasPainelContagem.dta (Stata). 

Portanto, o modelo a ser estimado apresenta a seguinte expressao: 

In (quant it ) = CL i + .horas it + (3 2 .faltas it 

As caracteristicas do banco de dados QuantNotasPainelContagem.dta e a descrinao de cada variavel po- 
derao ser analisadas quando digitamos o comando desc, conforme mostra a Figura 15.50. 

Antes de estimarmos os modelos propriamente ditos, e preciso que nos lembremos de definir o painel de da¬ 
dos (Figura 15.51), por meio do seguinte comando: 


xtset id t 
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Tabela 15.6 Exemplo: quantidade de disciplinas com nota abaixo da media, horas de estudo e faltas por mes. 


Estudante 

id 

Classe 

Periodo t (mes) 

Quantidade de 
disciplinas com 
nota abaixo da 
media (Y. t ) 

Quantidade de 
horas de estudo 

<XJ 

Quantidade de 
faltas a escola 

Gabriela 

1 

A 

1 

0 

21,6 

8 

Gabriela 

1 

A 

2 

0 

22,8 

8 

Gabriela 


Gabriela 

1 

A 

24 

0 27,3 

5 



Kamal 

22 

C 

1 

1 

24,6 

21 

Kamal 

22 

C 

2 

5 

23,8 

21 

Kamal 


Kamal 

22 

c 

24 

0 

26,3 

18 



Carolina 

30 

c 

1 

8 

20,6 

24 

Carolina 

30 

c 

2 

8 

12,8 

24 

Carolina 


Carolina 

30 

c 

24 

6 

29,3 

21 


. desc 





obs: 

720 




vars: 

7 




size: 

20,160 

(99.9% of 

memory free) 



storage 

display 

value 


variable name 

type 

format 

label 

variable label 

estudante 

strl2 

%12s 



id 

byte 

%8.0g 


codigo do estudante 

classe 

strl 

% Is 


classe em que se encontra o estudante 

t 

byte 

%8.0g 


periodo (mes) 

quant 

float 

%9.0g 


quantidade de disciplinas com nota abaixo da media 

horas 

float 

%9.0g 


quantidade mensal de horas de estudo 

faltas 

byte 

%8.0g 


quantidade mensal de faltas a escola 

|| Sorted by: | 


Figura 15.50 Descriq:ao do banco de dados QuantNotasPainelContagem.dta. 


. xtset id t 


panel variable: 

id (strongly balanced) 

time variable: 

t, 1 to 24 

delta: 

1 unit 


Figura 15.51 Defini<;ao do painel no Stata. 


Como a variavel dependente, que se refere a quantidade mensal de disciplinas com nota abaixo da media (nu- 
mero de ocorrencias), e quantitativa, discreta e com valores nao negativos, vamos, inicialmente, gerar a sua tabela 
de frequences e o seu correspondente histograma, por meio da digita^ao dos seguintes comandos: 

tab quant 

hist quant, discrete freq 

Os resultados encontram-se na Figura 15.52 e o histograma, na Figura 15.53. 

Na sequencia, podemos analisar a decomposi^ao de variancia da variavel dependente quant , bem como com- 
parar sua media com sua variancia overall. Para tanto, devemos digitar o seguinte comando: 
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. tab quant 


quantidade | 
de | 

disciplinas | 
com nota | 
abaixo da | 
media | 

Freq. 

Percent 

Cum. 





0 I 

334 

46.39 

46.39 

1 | 

46 

6.39 

52.78 

2 I 

45 

6.25 

59.03 

3 I 

51 

7.08 

66.11 

4 I 

53 

7.36 

73.47 

5 I 

52 

7.22 

80.69 

6 I 

61 

8.47 

89.17 

7 I 

43 

5.97 

95.14 

8 I 

35 

4.86 

100.00 





Total | 

720 

100.00 



Figura 15.52 Distribute) de frequences para os dados de contagem da variavel quant 



Figura 15.53 Histograma da variavel dependente quant 


. xtsum quant 

Variable | 

Mean 

Std. Dev. 

Min 

Max | 

Observations 

quant overall | 

2.372222 

2.721226 

0 

8 I 

N = 

720 

between | 


1.595984 

.0833333 

5.125 | 

n = 

30 

within | 


2.222472 

-2.752778 

9.913889 | 

T = 

24 


Figura 15.54 Decomposto de variancia para a variavel quant. 


xtsum quant 

Os outputs encontram-se na Figura 15.54. 

Nesta situa^ao, a variavel dependente apresenta maior variancia within, ainda que esta nao seja consideravel- 
mente superior a sua variancia between. Alem disso, embora ja tenhamos condi^oes de verificar que a variancia 
overall desta variavel seja superior a sua media, ja que (2,72) 2 = 7,40 > 2,37, nao podemos categoricamente afir- 
mar que esteja ocorrendo o fenomeno da superdispersao nos dados do nosso exemplo sem que seja elaborado o 
teste especifico para tal finalidade, conforme estudamos no Capitulo 14. 
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Entretanto, antes de elaborarmos este teste, vamos, para efeitos didaticos, estimar o modelo Poisson, digitando 
os comandos correspondentes a cada uma das estimates propostas. Sendo assim, temos: 

• Estima^ao Pooled Poisson com erros-padrao robustos com agrupamento por estudante: 

poisson quant horas faltas, vce(cluster id) 

ou 

glm quant horas faltas, family(poisson) vce(cluster id) 

ou 

xtpoisson quant horas faltas, pa corr(independent) vce(rob) 

ou 

xtgee quant horas faltas, family(poisson) corr(independent) vce(rob) 

Podemos verificar que os quatro comandos geram estimadores identicos dos parametros do modelo pro- 
posto. Note, novamente, que o termo pa corr (independent) do comando xtpoisson considera a existencia 
de correlates entre termos de erro iguais a zero para dois quaisquer periodos de tempo distintos e para dado 
individuo, que e o que tambem considera a estima^ao tradicional elaborada por meio do comando poisson. Ja 
o comando xtgee, conforme ja discutimos, e o comando mais geral referente a estima^ao GEE e equivale ao 
comando glm utilizado nos tres capitulos anteriores, sendo a familia de distributes a qui considerada a pois¬ 
son. Ao digitarmos o comando matrix list e (R) apos a estima^ao realizada pelo comando xtpoisson ou 
o comando estat wcorr apos a estima^ao por meio do comando xtgee, poderemos verificar que a matriz de 
correlates entre os termos de erro para os 24 periodos de tempo do nosso exemplo apresenta todos os valores 
iguais a zero. 

• Estima^ao PA Poisson com erros-padrao robustos: 

xtpoisson quant horas faltas, pa corr(exchangeable) vce(rob) 

ou 

xtgee quant horas faltas, family(poisson) corr(exchangeable) vce(rob) 

Neste caso, a matriz de correlates entre os termos de erro para os 24 periodos de tempo apresenta todos os 
valores iguais 0,1000. 

• Estima^ao por efeitos aleatorios: 

xtpoisson quant horas faltas, re nolog 

Pelas razoes discutidas na se^ao 15.4.1.1 em rela^ao a nao estima^ao dos efeitos individual a. quando da mo- 
delagem por efeitos fixos, optamos por nao elaborar tal metodo na presente se^ao. 

A fim de que os outputs das estimates GEE e aqueles obtidos por efeitos aleatorios possam ser comparados, 
vamos apresenta-los em uma unica tabela de resultados consolidados, que e gerada por meio da digita^ao da se- 
guinte sequencia de comandos: 

quietly poisson quant horas faltas, vce(cluster id) 
estimates store POISSONrob 

quietly xtpoisson quant horas faltas, pa corr(exchangeable) vce(rob) 
estimates store POISSONpa 

quietly xtpoisson quant horas faltas, re nolog 
estimates store POISSONea 

estimates table POISSONrob POISSONpa POISSONea, equations(1) b se 
stats(N 11) 

Os resultados obtidos encontram-se na Figura 15.55. 

Com base nestes outputs, podemos verificar que os parametros estimados pelos metodos propostos apresentam 
coerencia em termos de sinal, ja que, neste caso, quanto maior a quantidade mensal de horas de estudo e menor 
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. quietly poisson quant horas faltas, vce(cluster id) 

. estimates store POISSONrob 

. quietly xtpoisson quant horas faltas, pa corr(exchangeable) vce(rob) 

. estimates store POISSONpa 

. quietly xtpoisson quant horas faltas, re nolog 
. estimates store POISSONea 

. estimates table POISSONrob POISSONpa POISSONea, equations(1) b se stats(N 11) 


Variable | 

POISSONrob 

POISSONpa 

POISSONea 

#1 ! 




horas | 

-.05649749 

-.05632537 

-.05291475 

1 

.00846636 

.00735643 

.00604656 

faltas | 

.10776556 

.11286026 

.19682899 

1 

.01228543 

.01343872 

.01643692 

cons | 

.41644659 

.3573528 

-.93708527 

1 

.370695 

.35785033 

.30300958 

lnalpha | 




cons | 



-.94443196 

1 



.31264023 


N 

1 

720 

720 

720 

11 

1 

-1458.0523 


-1362.9487 


legend: b/se 


Figura 15.55 Outputs consolidados das estimates do modelo Poisson proposto. 


a quantidade mensal de faltas a escola, menor devera ser a quantidade de disciplinas com nota abaixo da media. 
Alem disso, com exce^ao das constantes nos modelos estimados por GEE ( Pooled e PA), todos os parametros es- 
timados sao estatisticamente significances, ao nivel de significance de 5%. 

Alem disso, podemos verificar que, enquanto os parametros obtidos pelas estimates GEE sao bastante pro- 
ximos, ocorrem altera^oes nos parametros estimados por efeitos aleatorios, com destaque para o incremento do 
parametro da variavel faltas. Para este mesmo modelo, verificamos tambem a redu^ao do erro-padrao do parame- 
tro da variavel horas e o aumento do erro-padrao do parametro da variavel faltas. 

De forma analoga ao elaborado quando da estima^ao dos modelos longitudinals logisticos, vamos agora cal- 
cular os valores previstos da quantidade de disciplinas que apresentam nota abaixo da media para cada individuo 
em cada instante de tempo, para que seja possivel compara-los graficamente. Para tanto, vamos digitar a seguinte 
sequencia de comandos: 

quietly poisson quant horas faltas, vce(cluster id) 
predict lambda_poissonrob 

quietly xtpoisson quant horas faltas, pa corr(exchangeable) vce(rob) 
predict lambda_j?oissonpa 

quietly xtpoisson quant horas faltas, re nolog 
predict lambda_j?oissonea, nuO 

graph twoway scatter quant horas || mspline lambda_poissonrob horas || 
mspline lambda_poissonpa horas || mspline lambda_poissonea horas ||, 
legend(label (2 "Pooled Poisson”) label(3 "PA Poisson") label (4 "Efeitos 
Aleatorios")) 

graph twoway scatter quant faltas | | mspline lambda_poissonrob faltas | | 
mspline lambda^poissonpa faltas | | mspline lambda__poissonea faltas | | , 
legend(label(2 "Pooled Poisson") label(3 "PA Poisson") label (4 "Efeitos 
Aleatorios")) 
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Os graficos gerados encontram-se nas Figuras 15.56 e 15.57. 





o quantidade de discipiinas com nota abaixo da media-Pooled Poisson 

. PA Poisson - Efeitos Aleatorios 


Figura 15.56 Valores previstos da quantidade de discipiinas com nota abaixo da media 
para cada estima^ao em fun^ao da variavel explicativa horas (modelo Poisson). 



o quantidade de discipiinas com nota abaixo da media-Pooled Poisson 

. PA Poisson - Efeitos Aleatorios 


J 


Figura 15.57 Valores previstos da quantidade de discipiinas com nota abaixo da media 
para cada estimagao em fun^ao da variavel explicativa faltas (modelo Poisson). 


Os graficos das Figuras 15.56 e 15.57 mostram que as tres estimates nao geram previsoes muito diferentes 
da quantidade de discipiinas com nota abaixo da media para valores intermediaries das variaveis horas e faltas. 
Por outro lado, valores extremos destas variaveis acabam por gerar distor^oes entre as previsoes obtidas por GEE 
e por efeitos aleatorios, muito em fun^ao das discrepancias verificadas neste ultimo modelo para os parametros 
correspondentes a constante e a variavel faltas (outputs da Figura 15.55). 

Dessa forma, para efeitos didaticos, podemos afirmar, para o modelo estimado pelo metodo PA Poisson, que 
o parametro -0,0563 da variavel horas significa, mantidas as demais condigoes constantes, que a taxa de incidencia 
mensal de discipiinas com nota abaixo da media, ao se estudar 1 hora a mais, e, em media, multiplicada por um 
fator de e -0,0563 = 0,945, ou seja, e, em media, 5,5% menor. 
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Para a mesma estima^ao, por outro lado, podemos afirmar que o parametro 0,1129 da variavel faltas significa, 
tambem mantidas as demais condi^oes constantes, que a taxa de incidencia mensal de disciplinas com nota abai- 
xo da media, ao se faltar 1 vez mais a escola, e, em media, multiplicada por um fator de e 0,1129 = 1,119, ou seja, e, 
em media, 11,9% maior. 

Elaboradas as estimates do modelo longitudinal Poisson para os dados em painel do nosso exemplo, vamos 
partir para a analise da adequa^ao deste modelo por meio da verifica^ao da existencia de superdispersao nos da¬ 
dos. Para tanto, vamos elaborar o teste proposto no Capitulo 14, digitando a seguinte sequencia de comandos: 

quietly poisson quant horas faltas 
predict lambda 

gen yasterisco = ((quant-lambda) A 2 - quant)/lambda 
reg yasterisco lambda, nocons 

Os resultados deste procedimento encontram-se na Figura 15.58. 


. quietly poisson quant horas faltas 
. predict lambda 

(option n assumed; predicted number of events) 

. gen yasterisco = ((quant-lambda) A 2 - quant)/lambda 
. reg yasterisco lambda, nocons 


Source | 

SS 

df 

MS 

Model | 

478.033379 

1 

478.033379 

Residual | 

8893.91168 

719 

12.3698354 

Total | 

9371.94506 

720 

13.0165904 


Number of obs = 720 
F ( 1, 719) = 38.65 
Prob > F = 0.0000 
R-squared = 0.0510 
Adj R-squared = 0.0497 
Root MSE - 3.5171 


yasterisco | Coef. Std. Err. t P>|t| [95% Conf. Interval] 

--f-------- 

lambda | .2690305 .0432767 6.22 0.000 .1840666 .3539943 


Figura 15.58 Resultado do teste para verifica^ao de existencia de superdispersao nos dados. 


Conforme discutimos no Capitulo 14, como o valor-P do teste t correspondente ao parametro /3 da variavel 
lambda e menor do que 0,05, podemos afirmar, ao mvel de confian^a de 95%, que os dados da variavel depen- 
dente apresentam superdispersao, fazendo com que o modelo longitudinal de regressao Poisson estimado para os 
dados em painel do nosso exemplo nao seja adequado. 

A estima^ao de um modelo Pooled binomial negativo tambem oferece resultados que nos permitem chegar 
a mesma conclusao. Ao digitarmos o comando a seguir, podemos afirmar, por meio da analise do resultado do 
teste de razao de verossimilhan^a que se encontra na parte inferior da Figura 15.59, que a hipotese nula de que 
o parametro (j) (alpha) seja estatisticamente igual a zero pode ser rejeitada ao nivel de significancia de 5% ( Sig . 
X 2 = 0,000 < 0,05). Portanto, tambem podemos comprovar, por meio deste procedimento, que ocorre o feno- 
meno da superdispersao nos dados do nosso exemplo. 

nbreg quant horas faltas, nolog 

Desta forma, com base no que estudamos no Capitulo 14, podemos escrever a expressao da variancia da varia¬ 
vel dependente, que apresenta a seguinte especifica^ao: 

Var(Y) = u + ( 0,832).w 2 

em que u representa o valor medio esperado da quantidade mensal de disciplinas com nota abaixo da media. 
Note que estamos considerando um modelo binomial negativo do tipo NB2 ( negative binomial 2 model), 
dadas as vantagens pertinentes a este modelo discutidas no Capitulo 14. 

Portanto, analogamente ao realizado para o modelo Poisson, vamos estimar o modelo binomial negativo por 
meio dos mesmos metodos. Sendo assim, temos: 
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. nbreg quant horas faltas, nolog 


Negative binomial 

Dispersion = i 

Log likelihood = 

regression 

mean 

-1309.1181 



Number of obs = 

LR chi2(2) 

Prob > chi2 = 

Pseudo R2 = 

720 

277.56 

0.0000 

0.0958 

quant 

1 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

horas 

faltas 

_cons 

1 - 
1 

1 

.0703683 

.1350762 

.2908107 

.0116729 

.008251 

.3035351 

-6.03 

16.37 

0.96 

0.000 

0.000 

0.338 

-.0932467 

.1189045 

-.3041071 

-.0474899 

.1512479 

.8857285 

/lnalpha 

1 - 

.1835004 

.1148383 



-.4085794 

.0415786 

alpha 

1 

.8323515 

.0955859 



.6645937 

1.042455 


Likelihood-ratio test of alpha=0: chibar2(01) - 297.87 Prob>=chibar2 = 0.000 


Figura 15.59 Outputs da estima^ao Pooled para o modelo binomial negativo 
(analise do teste de razao de verossimilhan^a para o parametro alpha). 

• Estima^ao Pooled para o modelo binomial negativo com erros-padrao robustos com agrupamento por estudante: 

nbreg quant horas faltas, vce(cluster id) 

ou 

glm quant horas faltas, family(nbinomial ml) vce(cluster id) 

ou 

xtgee quant horas faltas, family(nbinomial .8323515) 
corr(independent) vce(rob) 

Os tres comandos geram estimadores identicos dos parametros do modelo proposto. Note, para o comando 
xtgee, que agora a familia da distribui^ao da variavel dependente e a nbinomial, com valor estimado medio de 
alpha igual a . 8323515 (Figura 15.59). Caso nao seja incluido o valor de alpha no termo family () do comando 
xtgee, o Stata o considerara igual a 1. 

• Estima^ao PA para o modelo binomial negativo com erros-padrao robustos: 

xtgee quant horas faltas, family(nbinomial .8323515) 
corr(exchangeable) vce(rob) 

• Estima^ao por efeitos aleatorios: 

xtnbreg quant horas faltas, re nolog 

Novamente, a fim de que os outputs das estimates GEE e aqueles obtidos por efeitos aleatorios possam ser 
comparados, vamos apresenta-los em uma unica tabela de resultados consolidados, que e gerada por meio da di- 
gita^ao da seguinte sequencia de comandos: 

quietly nbreg quant horas faltas, vce(cluster id) 
estimates store BNEGrob 

quietly xtgee quant horas faltas, family(nbinomial .8323515) 
corr(exchangeable) vce(rob) 
estimates store BNEGpa 

quietly xtnbreg quant horas faltas, re nolog 
estimates store BNEGea 

estimates table BNEGrob BNEGpa BNEGea, equations(1) b se stats(N 11) 

A nova tabela gerada encontra-se na Figura 15.60. 

Por meio destes outputs , podemos verificar que os parametros estimados pelos metodos propostos apresen- 
tam, em sua maioria, maior magnitude em modulo, em compara^ao com aqueles obtidos pelos respectivos me¬ 
todos para o modelo Poisson, o que demonstra que o modelo binomial negativo consegue capturar a existencia 
da superdispersao nos dados. Caso este fenomeno nao estivesse ocorrendo, as diferen^as entre os parametros 
estimados para o modelo Poisson e para o modelo binomial negativo seriam quase inexistentes. 
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II . quietly nbreg quant horas 

faltas, vce (cluster id) j§ 

1 . estimates store BNEGrob 



1 . quietly xtgee 

quant horas 

faltas, family(nbinomial .8323515) corr(exchangeable) 1 

| vce (rob) 




1 . estimates store BNEGpa 



1 . quietly xtnbreg quant horas faltas, re 

nolog 

1 . estimates store BNEGea 



|| . estimates table BNEGrob BNEGpa BNEGea, 

equations(1) b se stats(N 11) 

Variable | 

BNEGrob 

BNEGpa 

BNEGea 

#1 ! 




horas | 

-.07036829 

-.07113839 

-.04783831 

1 

.01330174 

.01073655 

.00828097 | 

faltas | 

.13507616 

.15583155 

.22090069 

1 

.0180207 

.01595037 

.01512283 

cons | 

.29081071 

.03347373 

-2.1829273 

1 

.47261532 

.44468273 

.34681083 

lnalpha | 




! cons | 

-.18350041 



1 

.31679771 



In r | 




cons | 



1.2404435 

1 



.34618395 

In s | 




cons ) 



1.7140109 

1 



.35767549 

Statistics | 




N | 

720 

720 

720 

11 | - 

-1309.1181 


-1194.4948 

| legend: b/se || 


Figura 15.60 Outputs consolidados das estimates do modelo binomial negativo proposto. 


Alem disso, podemos notar que as diferen^as entre os parametros estimados pelos metodos GEE (Pooled e PA) 
e aqueles estimados por efeitos aleatorios sao ainda mais acentuadas para o modelo binomial negativo, merecendo 
destaque a redu^ao dos erros-padrao dos parametros estimados por este ultimo metodo. 

A Figura 15.61 mostra especificamente os resultados da estima^ao do modelo binomial negativo por efeitos ale¬ 
atorios. 

A parte inferior dos outputs desta figura mostra o resultado do teste de razao de verossimilhan^a que compara 
os estimadores dos parametros obtidos pelo metodo Pooled com aqueles obtidos por efeitos aleatorios. Com base 
no resultado deste teste, podemos rejeitar a hipotese de que o modelo Pooled binomial negativo ofere^a estima¬ 
dores apropriados, ou seja, existem diferen^as estatisticamente significantes (ao nivel de significance de 5%) en¬ 
tre os estudantes ao longo do tempo que justiquem a ado^ao da modelagem por efeitos aleatorios. E importante 
mencionar, entretanto, que se fossem estimados modelos independentes para os estudantes das classes A, B e C, 
o modelo Pooled binomial negativo passaria a oferecer estimadores apropriados para as classes A e C. Tais resul¬ 
tados podem ser observados na Figura 15.62, obtida por meio da digita^ao da seguinte sequencia de comandos: 

xtnbreg quant horas faltas if classe== M A", re nolog 

xtnbreg quant horas faltas if classe== M B", re nolog 

xtnbreg quant horas faltas if classe== ff C f, , re nolog 

Portanto, podemos afirmar que a heterogeneidade decorrente da considera^ao de estudantes provenientes de 
classes distintas no mesmo banco de dados faz com que seja mais apropriada a estima^ao do modelo binomial 
negativo por efeitos aleatorios. Neste sentido, seguiremos com a analise dos resultados deste especifico modelo. 

Sendo assim, o parametro -0,0478 da variavel horas significa, mantidas as demais condi^oes constantes, que 
a taxa de incidence mensal de disciplinas com nota abaixo da media, ao se estudar 1 hora a mais, e, em media, 
multiplicada por um fator de c -0,0478 = 0,953, ou seja, e, em media, 4,7% menor para um mesmo estudante. 
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1 . xtnbreg quant horas faltas , re nolog 





Random-effects 

negative binomial regression 

Number 

of obs = 

720 

Group variable 

id 



Number 

of groups = 

30 

Random effects 

u i ~ Beta 



Obs per group: min = 

24 






avg = 

24.0 






max = 

24 





Wald chi2(2) 

278.85 

Log likelihood 

= -1194.4948 


Prob > 

chi2 = 

0.0000 

quant | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

horas | 

- .0478383 

.008281 

-5.78 

0.000 

-.0640687 

-.0316079 

faltas | 

.2209007 

.0151228 

14.61 

0.000 

.1912605 

.2505409 

_cons | 

-2.182927 

.3468108 

-6.29 

0.000 

-2.862664 

-1.503191 

/In r | 

1.240444 

.3461839 



.5619355 

1.918952 

/ln_s | 

1.714011 

.3576755 



1.01298 

2.415042 

r | 

3.457146 

1.196809 



1.754064 

6.813811 

s I 

5.551182 

1.985522 



2.753795 

11.19024 

| Likelihood-ratio test vs. 

pooled: chibar2(01) 

= 73.1 

66 Prob>=chibar2 = 0.000 | 


Figura 15.61 Outputs da estimagao por efeitos aleatorios do modelo binomial negativo. 


Por outro lado, o parametro 0,2209 da variavel fait as significa, tambem mantidas as demais condi^oes constan- 
tes, que a taxa de incidencia mensal de disciplinas com nota abaixo da media, ao se faltar 1 vez mais a escola, e, em 
media, multiplicada por um fator de e 0,2209 = 1,247, ou seja, e, em media, 24,7% maior para um mesmo estudante. 

Se desejassemos obter diretamente estas taxas mensais de incidencia de disciplinas com nota abaixo da media, 
poderiamos ter digitado o termo irr ( incidence rate ratio) ao final do comando xtnbreg . . . , re nolog, assim 
como fizemos no Capitulo 14 para o comando nbreg. 

Por fim, vamos comparar, graficamente, os valores previstos da quantidade de disciplinas com nota abaixo da 
media para os modelos Poisson e binomial negativo estimados por efeitos aleatorios. Para tanto, vamos digitar a 
seguinte sequencia de comandos: 

quietly xtnbreg quant horas faltas, re nolog 

predict u_bnegea, nuO 

graph twoway scatter quant horas || mspline lambda_poissonea horas || 
mspline u_bnegea horas ||, legend(label(2 "Efeitos Aleatorios Poisson") 
label(3 "Efeitos Aleatorios Binomial Negativo")) 

graph twoway scatter quant faltas || mspline lambda_j?oissonea faltas || 
mspline u_bnegea faltas ||,legend(label(2 "Efeitos Aleatorios Poisson") 
label(3 "Efeitos Aleatorios Binomial Negativo")) 

Os graficos gerados encontram-se nas Figuras 15.63 e 15.64. 

Estas figuras mostram que o modelo binomial negativo consegue, de fato, capturar a existencia de superdisper- 
sao nos dados que, caso nao estivesse ocorrendo, as duas curvas seriam praticamente superpostas em cada grafico. 

15.5. CONSIDERA0ES FINAIS 

Modelos longitudinals de regressao para dados em painel possibilitam que o pesquisador avalie a rela^ao entre 
alguma variavel de desempenho e diversas variaveis preditoras, permitindo que se elaborem inferences sobre as 
eventuais diferen^as entre individuos e ao longo do tempo a respeito da evolu^ao daquilo que se pretende estu- 
dar. E natural que muitas pesquisas venham a fazer uso de tais modelos, uma vez que dados podem ser coletados 
ou publicados com determinada periodicidade para pessoas, empresas, municipios, estados ou paises, por exemplo. 

Para tanto, e necessario, assim como para qualquer outra tecnica de modelagem, que a aplica^ao venha acom- 
panhada de rigor metodologico e certos cuidados quando da analise dos resultados, principalmente se estes ti- 
verem como objetivo a elabora^ao de previsoes. A ado^ao de determinado estimador, em detrimento de outro 
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I . xtnbreg quant horas faltas if classe== 

"A", re 

nolog 


Random-effects 

negative binomial regression 

Number of obs = 

240 

Group variable 

id 



Number of groups = 

10 

Random effects 

u i ~ Beta 



Obs per group: min = 

24 





avg = 

24.0 





max = 

24 





Wald chi2(2) 

14.45 

Log likelihood 

= -142.5686 


Prob > chi2 = 

0.0007 

quant | 

Coef. 

Std. Err. 

z 

P>|z| [95% Conf. 

Interval] 

horas | 

.0357429 

.0467115 

0.77 

0.444 -.05581 

.1272958 

faltas | 

.2565406 

.0676747 

3.79 

0.000 .1239005 

.3891806 

_cons | 

-5.833719 

1.382816 

-4.22 

0.000 -8.543988 

-3.123449 

/In r | 

13.74748 

769.7807 


-1494.995 

1522.49 

/ln_s | 

15.75883 

769.7812 


-1492.985 

1524.502 

r | 

934231.5 

7.19e+08 


0 


s I 

6981895 

5.37e+09 


0 


II Likelihood-ratio test vs . 

pooled: chibar2(01) = 

0.00 Prob>=chibar2 = 1.000 II 

I . xtnbreg quant horas faltas if classe==' 

’B", re 

nolog 


Random-effects 

negative binomial regression 

Number of obs = 

240 

Group variable 

id 



Number of groups = 

10 

Random effects 

u i ~ Beta 



Obs per group: min = 

24 





avg = 

24.0 





max = 

24 





Wald chi2(2) 

94.00 

Log likelihood 

= -454.81022 


Prob > chi2 = 

0.0000 

quant | 

Coef. 

Std. Err. 

z 

P>|z| [95% Conf. 

Interval] 

horas | 

-.0910048 

.0167091 

-5.45 

0.000 -.1237539 

-.0582556 

faltas | 

.3092178 

.0509727 

6.07 

0.000 .2093132 

.4091225 

_cons | 

-2.172579 

.8588268 

-2.53 

0.011 -3.855849 

-.4893097 

/In r | 

.924872 

.5377648 


-.1291277 

1.978872 

/ln_s | 

1.472491 

.629902 


.237906 

2.707076 

| r | 

2.521545 

1.355998 


.8788617 

7.234576 

s I 

4.360084 

2.746425 


1.26859 

14.9854 

| Likelihood-ratio test vs . 

pooled: chibar2(01) = 

13.93 Prob>=chibar2 = 0.000 II 

1 . xtnbreg quant horas faltas if classe==' 

'C", re 

nolog 


Random-effects 

negative binomial regression 

Number of obs = 

240 

Group variable 

id 



Number of groups = 

10 

Random effects 

u i ~ Beta 



Obs per group: min = 

24 





avg = 

24.0 





max = 

24 





Wald chi2(2) 

55.13 

Log likelihood 

= -529.07472 


Prob > chi2 = 

0.0000 

quant | 

Coef. 

Std. Err. 

z 

P>|z| [95% Conf. 

Interval] 

horas | 

-.0488749 

.0080244 

-6.09 

0.000 -.0646024 

-.0331474 

faltas | 

.0330549 

.0107426 

3.08 

0.002 .0119998 

.0541099 

_cons | 

3.684275 

.8404293 

4.38 

0.000 2.037064 

5.331486 

/In r 1 

19.24157 

455.4995 


-873.521 

912.0041 

/ln_s | 

17.439 

455.5 


-875.3247 

910.2027 

r | 

2.27e+08 

1.04e+ll 


0 


S I 

3.75e+07 

1.71e+10 


0 


| Likelihood-ratio test vs. 

pooled: chibar2(01) = 

2.4e-05 Prob>=chibar2 = 0.498 | 


Figura 15.62 Outputs da estimate) por efeitos aleatorios do modelo binomial negativo por classe. 
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o quantidade de disciplinas com nota abaixo da media 

-Efeitos Aleatorios Poisson 

- Efeitos Aleatorios Binomial Negativo 


V_ J 

Figura 15.63 Valores previstos da quantidade de disciplinas com nota abaixo da media em fun$ao 
da variavel explicativa horas (modelos Poisson e binomial negativo estimados por efeitos aleatorios). 





quantidade mensal de faltas a escola 

o quantidade de disciplinas com nota abaixo da media 

-Efeitos Aleatorios Poisson 

- Efeitos Aleatorios Binomial Negativo 

V_ 


Figura 15.64 Valores previstos da quantidade de disciplinas com nota abaixo da media em fungao 
da variavel explicativa faltas (modelos Poisson e binomial negativo estimados por efeitos aleatorios). 


considerado viesado ou inconsistente, pode auxiliar o pesquisador na escolha do modelo mais apropriado, valo- 
rizando a sua pesquisa e propiciando novos estudos sobre o tema escolhido. 

E muito comum encontrarmos discussoes a respeito da magnitude dos residuos em modelos longitudinals de 
regressao. De fato, ao analisarmos os graficos elaborados ao longo deste capitulo, podemos nitidamente verifi- 
car que os termos de erro sao consideraveis. Este fenomeno ocorre muito em fun^ao da inser^ao de individuos 
heterogeneos na mesma base (como ocorre quando trabalhamos com dados de estudantes provenientes de clas¬ 
ses distintas), o que pode fazer com que sejamos obrigados, por vezes, a estimar parametros por efeitos fixos ou 
aleatorios, em detrimento dos tradicionais modelos estimados por GEE (Pooled e PA), como vimos em muitas 
situates ao longo do capitulo. 

A elimina^ao da heterogeneidade faz, naturalmente, com que sejam reduzidos os residuos, aumentando-se a 
propensao de que sejam estimados modelos apropriados pelos tradicionais metodos GEE. Entretanto, caso esta 
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solu^ao nao seja a mais viavel, podemos, alternativamente, tentar investigar as razoes que geram as heterogenei- 
dades entre os grupos. Para os dados dos nossos exemplos, faria sentido investigarmos as razoes que levam a exis- 
tencia de comportamentos diferentes entre estudantes provenientes de classes distintas. Como os estudantes nao 
mudam de classe ao longo do tempo, e como existem caracteristicas distintas entre as classes, deve haver alguma 
influencia no nivel “classe” que pode contribuir para o estudo dos fenomenos propostos. Nesta situa^ao, pode- 
riamos fazer uso de modelagens multinivel, que sao uma extensao natural dos modelos longitudinals para dados 
em painel e serao estudadas no proximo capitulo. 

Neste capitulo, procuramos elaborar, por meio da utiliza^ao de diferentes bases de dados, algumas importantes 
modelagens para dados longitudinals, adequadas para cada situa^ao de uso e em fun^ao prioritariamente das carac¬ 
teristicas da variavel dependente. Alem disso, tambem procuramos propiciar ao pesquisador uma oportunidade de 
aplicar esses diferentes tipos de estimates por meio do software Stata, o que acaba por favorecer o seu manuseio. 

O Quadro 15.1 apresenta, de forma consolidada, as principals estimates estudadas ao longo do capitulo, com 
respectivos comandos em Stata. Conforme podemos perceber, o assunto e realmente vasto e novos estimadores 
podem sempre ser levados em considera^ao quando da modelagem de dados longitudinals. 


15.6. EXERCICIOS 

1. Um cardiologista tern monitorado 10 pacientes, que sao executivos de empresas, ao longo dos ultimos 5 
anos, em rela^ao aos sens indices de colesterol LDL (mg/dL). Seu intuito e orienta-los sobre a importancia 
da manuten^ao ou perda de peso e da realiza^ao periodica de atividades fisicas para a redu^ao do colesterol 
e, portanto, elaborou uma base de dados que pode ser acessada por meio do arquivo ColesterolPaineLdta. 
As variaveis sao: 


Variavel 

De scri£ao 

ano 

Periodo (ano). 

individuo 

Codigo de identificagao do executivo. 

colesterol 

Indice de colesterol LDL (mg/dL). 

imc 

Indice de massa corporea (kg/m 2 ). 

esporte 

Numero de vezes em que pratica atividades fisicas na semana (media no ano). 


Por meio do uso desta base de dados, pede-se: 

a. Defina o painel por meio das variaveis individuo e <mo.Trata-se de um painel balanceado? 

b. Elabore um grafico que apresenta a evolu^ao do indice de colesterol LDL ao longo dos anos, discriminan- 
do cada um dos executivos. E possivel, ainda que visualmente, perceber se ha diferen^as na evolu^ao anual 
do indice de colesterol LDL entre os individuos? 

c. Elabore a decomposi^ao de variancia para cada variavel e analise as variancias within e between para as va¬ 
riaveis colesterol , imc e esporte . 

d. Deseja-se estimar o seguinte modelo, a fim de que seja possivel verificar a importancia da evolu^ao do in¬ 
dice de massa corporea e da realiza^ao de atividades fisicas periodicas sobre o indice de colesterol LDL. 

colesterol it = a { + b v imc it + b 2 .esporte it +£ it 

Desta forma, elabore as seguintes estima^oes para o modelo proposto e apresente os principals resultados 
obtidos em cada uma delas numa tabela consolidada: 

• POLS com erros-padrao robustos com agrupamento por executivo; 

• Efeitos fixos; 

• Efeitos fixos com erros-padrao robustos com agrupamento por executivo; 

• Efeitos aleatorios; 

• Efeitos aleatorios com erros-padrao robustos com agrupamento por executivo. 

e. E possivel verificar, em rela^ao a adequa^ao do modelo, se existe significancia conjunta das variaveis expli- 
cativas para todas as estimaqoes propostas (Sig. F para as estimates POLS e por efeitos fixos e Sig. X 2 para 
a estima^ao por efeitos aleatorios)? 
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Quadro 15.1 Estimates de modelos longitudinais de regressao para dados em painel e comandos em Stata. 


Modelo 

Painel 

Estimagao 

Descrigao 

Comando 

Stata 

Termo Final do Comando Stata 

Linear 

Curto 

GEE 

Estimagao POLS com 
erros-padrao robustos com 
agrupamento por individuo 

reg 

vce(cluster id) 

xtgee 

family (gaussian) 

corr(independent) vce(rob) 

Efeitos Fixos 

Estimagao por efeitos fixos 

xtreg 

fe 

Efeitos Fixos 

Estimagao por efeitos fixos 
com erros-padrao robustos com 
agrupamento por individuo 

xtreg 

fe vce(cluster id) 

Efeitos Aleatorios 

Estimagao por efeitos aleatorios 

xtreg 

re 

Efeitos Aleatorios 

Estimagao por efeitos aleatorios 
com erros-padrao robustos com 
agrupamento por individuo 

xtreg 

re vce(cluster id) 

Longo 

GEE 

Estimagao POLS com efeitos 
autorregressivos de primeira 
ordem AR(1) 

xtpcse 

corr(arl) 

GEE 

Estimagao POLS com efeitos autor¬ 
regressivos de p-esima ordem AR(p) 

xtscc 


GEE 

Estimagao GLS com efeitos 
autorregressivos de primeira 
ordem AR(1) e termos de erro 
heterocedasticos 

xtgls 

corr(arl) 

panels(correlated) 

Efeitos Fixos 

Estimagao por efeitos fixos com 
termos de erro AR(1) 

xtregar 

fe 

Efeitos Aleatorios 

Estimagao por efeitos aleatorios 
com termos de erro AR(1) 

xtregar 

re 

Nao 

Linear 

Logistico 

GEE 

Estimagao Pooled com 
erros-padrao robustos com 
agrupamento por individuo 

logit 

vce(cluster id) 

xtgee 

family (binomial) 

corr(independent) vce(rob) 

GEE 

Estimagao PA com erros-padrao 
robustos 

xtlogit 

pa corr(exchangeable) 
vce(rob) 

xtgee 

j 

family (binomial) 
corr(exchangeable) 
vce(rob) 

Efeitos Fixos 

Estimagao por efeitos fixos 

xtlogit 

fe 

Efeitos Aleatorios 

Estimagao por efeitos aleatorios 

xtlogit 

re 

Poisson 

GEE 

Estimagao Pooled com 
erros-padrao robustos com 
agrupamento por individuo 

poisson 

vce (cluster id) 

xtgee 

family (poisson) 

corr(independent) vce(rob) 

GEE 

Estimagao PA com erros-padrao 
robustos 

xtpoisson 

pa corr(exchangeable) 
vce(rob) 

xtgee 

family(poisson) 
corr(exchangeable) 
vce (rob) 

Efeitos Aleatorios 

Estimagao por efeitos aleatorios 

xtpoisson 

re 

Binomial 

Negativo 

GEE 

Estimagao Pooled com 
erros-padrao robustos com 
agrupamento por individuo 

nbreg 

vce(cluster id) 

xtgee 

family (nbinomial alpha) 
corr (independent) vce (rob) 

GEE 

Estimagao PA com erros-padrao 
robustos 

xtgee 

family (nbinomial 
alpha) corr(exchangeable) 
vce (rob) 

Efeitos Aleatorios 

Estimagao por efeitos aleatorios 

xtnbreg 

re 
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f. Verifica-se que os valores de R 2 between sao maiores do que os valores de R 2 within para todas as estimates 
em que estas estatisticas sao calculadas. Justifique por qual razao este fato deve ter ocorrido para os dados 
do nosso exemplo. 

g. Discuta os sinais dos parametros estimados nas modelagens. 

h. Elabore o teste LM de Breusch-Pagan, o teste F de Chow, o teste robusto de Hausman e o teste de Schaffer 
e Stillman, e discuta seus resultados. O que se pode avaliar sobre os modelos estimados por efeitos fixos e 
por efeitos aleatorios neste painel de dados? 

i. Elabore uma tabela que mostre as diferen^as que existem nos comportamentos do indice de colesterol 
LDL de cada executivo ao longo do tempo, com base na compara^ao dos parametros que seriam estima¬ 
dos caso fosse elaborado um modelo de regressao para cada um deles. Cabe, portanto, a aplica^ao de um 
tratamento especifico para cada executivo? 

2. Um estudioso do comportamento de indicadores sociais e economicos de na^oes deseja investigar a rela^ao 
eventualmente existente entre a expectativa de vida e o PIB per capita ao longo do tempo. Para tanto, levantou 
dados por um periodo de 53 anos (de 1960 a 2012) de 10 paises da America do Sul (Argentina, Bolivia, Brasil, 
Chile, Colombia, Equador, Paraguai, Peru, Uruguai, e Venezuela), o que totaliza 530 observances. Os dados en- 
contram-se no arquivo ExpectativadeVida.dta, composto pelas seguintes variaveis: 


Variavel 

Descri^ao 

pais 

Variavel string que identifica o pais da America do Sul. 

id 

Codigo do pais. 

ano 

Variavel string que identifica o ano (de 1960 a 2012). 

t 

Periodo (ano). 

expvida 

Expectativa de vida ao nascer, em anos (Fonte: Organiza^ao das Na^oes Unidas). 

pib_capita 

PIB per capita em US$ ajustado pela inflagao, com ano base 2000 (Fonte: Banco Mundial). 


Deseja-se investigar a rela^ao entre a expectativa de vida ao nascer e o PIB per capita dos paises da America do 
Sul ao longo do tempo e, para tanto, devera ser estimado o seguinte modelo: 

expvida it = a x + b.pib _capita it + £ it 

Desta forma, pede-se: 

a. Defina o painel por meio das variaveis id e £.Trata-se de um painel balanceado? 

b. Elabore um grafico que apresente a evolu^ao da expectativa de vida dos paises ao longo dos anos. 

c. Elabore um grafico que apresente a evolu^ao do PIB per capita dos paises ao longo dos anos. 

d. Elabore a decomposi^ao de variancia para cada variavel e analise as variancias within e between para as va¬ 
riaveis expvida e pib_capita , em fun^ao do comportamento dos graficos dos itens (c) e (d). 

e. Por meio do teste de Wooldridge, verifique, ao nivel de significance de 5%, a existence de correla^ao se¬ 
rial de primeira ordem nos termos de erro do modelo proposto, dada a possibilidade de influence tempo¬ 
ral significativa neste painel longo de dados. Deve ser considerada, nas estimates do modelo, a existence 
de efeitos autorregressivos de primeira ordem AR(1) nos termos de erro? 

f. Por meio do teste de Pesaran, verifique, ao nivel de significance de 5%, a existence de correla^ao entre os 
paineis, tambem chamada de correla^ao entre cross-sections ou correla^ao contemporanea. Deve ser consi¬ 
derada a existence de termos de erro heterocedasticos quando da estima^ao do modelo proposto? 

g. Elabore as seguintes estimates para o modelo proposto e apresente os estimadores dos parametros com 
respectivos erros-padrao obtidos em cada uma delas numa tabela consolidada: 

• POLS com efeitos autorregressivos de primeira ordem AR(1); 

• POLS com efeitos autorregressivos de p-esima ordem AR(p); 

• GLS com efeitos autorregressivos de primeira ordem AR(1) e termos de erro heterocedasticos; 

• Efeitos aleatorios com termos de erro AR(1). 
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h. Discuta os principals resultados obtidos no item anterior. 

i. Elabore um grafico que compare os valores previstos da expectativa de vida obtidos pelas estimates pro- 
postas em fun^ao do PIB per capita. 

3. A Universidade Corporativa de uma empresa varejista que possui 17 lojas espalhadas por todo o territo- 
rio brasileiro deseja investigar como tern se comportado, ao longo dos ultimos anos, a eficiencia de cada uma 
das lojas, traduzida pelo atingimento ou nao da meta mensal de receita de vendas, em fun^ao da quantidade de 
horas oferecidas de treinamento em cursos sobre tecnicas de atendimento para os profissionais das equipes de 
vendas. O intuito e comprovar que o oferecimento de treinamentos in company contribui para o aumento da 
probabilidade de que a meta de receita de vendas seja atingida. O banco de dados, que se encontra no arquivo 
UniversidadeCorporativa.dta, oferece dados mensais dos ultimos 261 meses (de fevereiro de 1993 a outubro 
de 2014). Como existem lojas que iniciaram suas operates apos a data de imcio da coleta dos dados, terminaram 
suas operates antes de outubro de 2014 ou deixaram de preencher o questionario em algum periodo especifico, 
por razoes relativas a troca de gestao, o painel de dados e bastante desbalanceado. As variaveis presentes nesta base, 
que contem 3.008 observa^oes, sao: 


Variavel 

Descr^ao 

localidade 

Variavel string que identifica a cidade em que se localiza a loja. 

id 

Codigo da loja. 

ano 

Variavel string que identifica o ano (de 1993 a 2014). 

mes 

Variavel string que identifica o mes. 

t 

Periodo (mes). 

meta 

Variavel dependente binaria correspondente ao fato de a loja ter ou nao atingido a meta 
de receita de vendas em determinado mes (Nao — 0; Sim = 1). 

trein 

Quantidade mensal de horas de treinamento em atendimento para a equipe de vendas 
(profissional-hora). 


O modelo probabilistic© a ser estimado apresenta a seguinte expressao: 

e {a t +p.trein it ) 

P (meta=l)/7 ~ j (o^+jS.frw^) 


Desta forma, pede-se: 

a. Defina o painel por meio das variaveis id e ^.Trata-se, de fato, de um painel desbalanceado? 

b. E possivel verificar se existe consideravel persistencia do comportamento da variavel meta mes a mes? 

c. Existe discrepancia entre o valor medio da variavel trein quando a meta mensal de receita de vendas e atin¬ 
gida e o seu valor medio quando a meta nao e atingida? 

d. Elabore as seguintes estimates para o modelo proposto e apresente os principals resultados obtidos em 
cada uma delas numa tabela consolidada: 

• Pooled Logit com erros-padrao robustos com agrupamento por loja; 

• PA Logit com termos de erro equicorrelacionados e erros-padrao robustos; 

• Efeitos aleatorios. 

e. Elabore um grafico que mostra a rela^ao entre as probabilidades previstas de atingimento da meta de re¬ 
ceita mensal de vendas, obtidas por meio das estimates propostas, e a quantidade mensal de horas de trei¬ 
namento em atendimento. 

f. Pergunta-se, por meio do modelo estimado por efeitos aleatorios: em quanto se incrementa, em media, a 
chance de se atingir a meta mensal de receita de vendas para uma mesma loja, ao se aumentar em 1 uni- 
dade a quantidade mensal de horas de treinamento em atendimento (profissional-hora), ceteris paribus? 

g. Pergunta-se, por meio do modelo estimado pelo metodo PA: em quanto se incrementa, em media, a chan¬ 
ce de se atingir a meta mensal de receita de vendas para uma loja “media” escolhida aleatoriamente, ao se 
aumentar em 1 unidade a quantidade mensal de horas de treinamento em atendimento (profissional-hora), 
ceteris paribus ? 
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4. O Ministerio da Justi^a de determinado pais deseja estudar o comportamento da criminalidade em cada um 
dos 10 estados da federaqao. Para tanto, coletou, ao longo dos ultimos 8 anos, dados mensais (96 meses) sobre a 
quantidade de homicidios a cada 100.000 habitantes. Como o tamanho da forqa policial pode contribuir para 
a diminuiqao dos niveis delitivos, tambem acompanhou a evolu^ao mensal desta variavel em cada estado, ex- 
pressa pela quantidade de policiais a cada 100.000 habitantes. Por fim, como e sabido que a adoqao da lei seca 
apos as 22:00h tambem pode reduzir os mveis de criminalidade, foi identificado o periodo a partir do qual esta 
medida passou a vigorar em cada estado. O banco de dados, que se encontra no arquivo Criminalidade. dta, 
oferece um painel de dados balanceado com 960 observaqoes. As variaveis sao: 


Variavel 

Descri^ao 

id 

Codigo do estado. 

t 

Periodo (mes). 

homicidios 

Quantidade de homicidios a cada 100.000 habitantes (dados de contagem). 

policia 

Quantidade de policiais treinados e qualificados a cada 100.000 habitantes. 

leiseca 

Variavel binaria correspondente ao fato de o estado ter ou nao adotado a lei seca apos as 22:00h 
(Nao = 0; Sim = 1). 


O modelo em painel a ser estimado apresenta a seguinte expressao: 

1 n(homiadios it } — OC t + (3 v policia it + (3 2 .leiseca it 

Desta forma, pede-se: 

a. Elabore o histograma da variavel dependente homicidios e apresente sua media e variancia. Ha indicios de 
ocorrencia de superdispersao nos dados desta variavel? 

b. Por meio da estimaqao de um modelo tradicional de regressao Poisson, elabore o teste para verifica^ao da 
existencia de superdispersao nos dados. O que se pode concluir com base no resultado do teste, ao nivel 
de confianqa de 95%? 

c. Caso haja superdispersao nos dados da variavel dependente, estime um modelo binomial negativo tradi¬ 
cional. Qual a expressao da variancia da variavel dependente, considerando-se um modelo binomial nega¬ 
tivo do tipo NB2? 

d. Elabore as seguintes estimates para o modelo proposto e apresente os principals resultados obtidos em 
cada uma delas numa tabela consolidada. Neste caso, elabore as estimates para o modelo Poisson ou para 
o modelo binomial negativo, sabendo-se que esta decisao deve ser tomada com base no resultado do teste 
para verifica^ao da existencia de superdispersao nos dados elaborado no item (b). 

• Pooled com erros-padrao robustos com agrupamento por estado; 

• PA com termos de erro equicorrelacionados e erros-padrao robustos; 

• Efeitos aleatorios. 

e. Discuta os principals resultados obtidos no item anterior. 

f. E possivel afirmar que existem diferenqas estatisticamente significantes, ao nivel de significancia de 5%, 
entre os estados ao longo do tempo que justiquem a ado^ao da modelagem por efeitos aleatorios? 

g. Com base no que foi discutido no item anterior, interprete os parametros estimados para o modelo con- 
siderado mais apropriado. 

h. Elabore um grafico que compara os valores previstos pelo modelo considerado mais apropriado e os va- 
lores reais da quantidade de homicidios, em fun^ao da quantidade de policiais treinados e qualificados (a 
cada 100.000 habitantes). 





Modelos Multimvel de Regressao 
para Dados em Painel 


Devemos expandir o cfrculo do nosso amor ate que ele englobe todo o nosso bairro; 
do bairro, por sua vez, deve desdobrar-se para toda a cidade; da cidade para o estado 
e assim sucessivamente, ate que o objeto do nosso amor inclua todo o universo. 

Mahatma Gandhi 


Ao final deste capftulo, voce tera condigoes de: 

• Estabelecer as circunstancias a partir das quais os modelos de regressao multinfvel podem ser utilizados. 

• Entender como funcionam as estruturas aninhadas de dados agrupados e de dados com medidas 
repetidas, e saber definir diversos tipos de constructos a partir dos quais os modelos multinfvel podem ser 
utilizados. 

• Proper modelos em que seja possfvel identificar os efeitos fixos e os efeitos aleatorios sobre a variavel 
dependente. 

• Estimar parametros de modelos hierarquicos lineares de dois niveis com dados agrupados e de tres niveis 
com medidas repetidas, e saber interpreta-los. 

• Compreender a decomposigao de variancia dos efeitos aleatorios em carater multinfvel. 

• Calcular e interpretar as correlates intraclasse de cada nfvel da analise. 

• Saber diferenciar urn modelo multinfvel de urn modelo tradicionai de regressao. 

• Elaborar testes de razao de verossimilhanga para comparar estimagoes de diferentes modelos multinfvel. 

• Estimar modelos de regressao multinfvel no Stata Statistical Software® e no IBM SPSS Statistics Software® e 
interpretar seus resultados. 


16.1. INTRODUgAO 

Os modelos multimvel de regressao para dados em painel tern adquirido importancia consideravel 
em diversas areas do conhecimento, e a publicagao de trabalhos que fazem uso de estimagoes relacionadas a esses 
modelos tern sido cada vez mais frequente, muito em fungao da determinagao de constructos de pesquisa que 
consideram a existencia de estruturas aninhadas de dados, em que determinadas variaveis apresentam varia- 
gao entre unidades distintas que representam grupos, porem nao entre observagoes pertencentes a um mesmo 
grupo. O proprio desenvolvimento computacional e o investimento que determinadas empresas fabricantes de 
softwares de analise de dados tern feito na capacidade de processamento para estimagao de modelagens multimvel 
tambem oferecem suporte a pesquisadores cada vez mais interessados nesse tipo de abordagem. 

Imagine que um grupo de pesquisadores tenha interesse em estudar como o desempenho de firmas, me- 
dido, por exemplo, por determinado indicador de rentabilidade, comporta-se em relagao a determinadas ca- 
racteristicas de operagao das empresas (porte, investimento, entre outras) e com relagao as caracteristicas do 
setor em que cada firma atua (participagao no PIB, incentivos fiscais e de legislagao, entre outras). Como as 
caracteristicas dos setores nao variam entre firmas provenientes do mesmo setor, caracteriza-se uma estrutura 
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de dados agrupados em dois mveis, com firmas (nivel 1) aninhadas em empresas (nivel 2). A estima^ao de 
um modelo multinivel pode propiciar ao pesquisador uma possibilidade de verificar se existem caracteristicas 
de firmas que explicam eventuais diferen^as de desempenho entre companhias provenientes do mesmo setor, 
bem como se existem caracteristicas dos setores que explicam eventuais diferen^as no desempenho de firmas 
provenientes de setores distintos. 

Imagine ainda que este estudo seja ampliado para que se investigue a evolugao temporal do desempenho des- 
sas firmas. Ao contrario dos modelos longitudinals de regressao para dados em painel (Capitulo 15), em que as 
variaveis sofrem altera^oes entre observances e ao longo do tempo, imagine que o banco de dados seja estrutu- 
rado apenas com variaveis de firmas (estrutura de governan^a, linhas de produ^ao, entre outras) e de setores (in- 
cidencia tributaria, legisla^ao, entre outras) que nao se alteram durante o periodo analisado. Desta forma, caracte- 
riza-se uma estrutura de dados com medidas repetidas em tres mveis, com periodos de tempo (nivel 1) 
aninhados em firmas (mveis 2), e estas em setores (nivel 3) e, a partir da qual, podem ser estimados modelos com 
o intuito de se investigar se existe variabilidade no desempenho, ao longo do tempo, entre firmas de um mesmo 
setor e entre aquelas provenientes de setores distintos e, em caso afirmativo, se existem caracteristicas de firmas e 
de setores que explicam essa variabilidade. 

Em tese, o pesquisador pode definir um constructo com uma quantidade maior de mveis de analise, mesmo 
que a interpreta^ao dos parametros do modelo nao seja algo trivial. Por exemplo, imagine o estudo do desempe¬ 
nho escolar, ao longo do tempo, de estudantes aninhados em escolas, estas em distritos municipals, estes em mu- 
nicipios e estes em estados da federa^ao. Nesse caso, estariamos trabalhando com seis mveis de analise (evolu^ao 
temporal, estudantes, escolas, distritos municipals, municipios e estados). 

A principal vantagem dos modelos multinivel sobre modelos tradicionais de regressao estimados, por exem¬ 
plo, por MQO (Capitulo 12), refere-se a possibilidade de que seja levado em considera^ao o aninhamento natural 
dos dados. Em outras palavras, os modelos multinivel permitem que sejam identificadas e analisadas as 
heterogeneidades individuals e entre grupos a que pertencem estes individuos, tornando possivel a 
especifica^ao de componentes aleatorios em cada nivel da analise. Por exemplo, se empresas estiverem 
aninhadas em setores, e possivel que se defina um componente aleatorio no nivel de firma e outro no nivel de 
setor, ao contrario do que permitiria um modelo tradicional de regressao, em que o efeito do setor sobre o de¬ 
sempenho das firmas seria considerado de maneira homogenea. Nesse sentido, os modelos multinivel tambem 
podem ser chamados de modelos de coeficientes aleatorios. 

Neste capitulo, estudaremos os modelos multinivel com o intuito de investigar comportamentos de variaveis 
dependentes metricas e, a partir dos quais, serao gerados residuos normalmente distribuidos, porem nao inde- 
pendentes e sem variancia constante. Assim, nosso foco sera nos modelos multinivel lineares, conhecidos tambem 
por modelos lineares mistos (em ingles, linear mixed models - LMM) ou modelos hierarquicos lineares 
(em ingles, hierarchical linear models - HLM). Essa e a razao para que modelos multinivel aplicados a dados ani¬ 
nhados em dois niveis sejam tambem denominados HLM2, e que modelos aplicados a dados aninhados em tres 
niveis sejam conhecidos por HLM3. 

De acordo com West, Welch e Galecki (2015), a denomina^ao modelos lineares mistos vem do fato de que 
esses modelos apresentam especifica^ao linear e as variaveis explicativas envolvem um misto de efeitos fixos 
e aleatorios, ou seja, podem ser inseridas tanto em componentes de efeitos fixos, quanto em componentes de 
efeitos aleatorios. Enquanto os parametros estimados de efeitos fixos indicam a rela^ao entre as variaveis ex¬ 
plicativas e a variavel dependente metrica, os componentes de efeitos aleatorios podem ser representados pela 
combinagao de variaveis explicativas e termos aleatorios nao observados. 

No apendice deste capitulo, faremos uma breve apresenta^ao de modelos multinivel nao lineares, com aplica- 
£oes em Stata de exemplos de modelos dos tipos logistico, Poisson e binomial negativo. 

Seguindo a logica do capitulo anterior, elaboraremos todas as modelagens neste capitulo em Stata. Alem disso, 
acreditamos que a elabora^ao de estimates em SPSS tambem possa propiciar ao pesquisador a oportunidade de 
compara^ao do manuseio dos softwares, dos procedimentos e rotinas para estima^ao dos modelos e das logicas 
com que sao apresentados os outputs , permitindo que se decida qual software utilizar, em fun^ao das caracteristicas 
de cada um e da propria acessibilidade para uso. 

Neste capitulo, portanto, trataremos dos modelos multinivel de regressao para dados em painel, com os se- 
guintes objetivos: (1) introduzir os conceitos sobre estruturas aninhadas de dados; (2) definir o tipo de modelo 
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a ser estimado em fun^ao das caracteristicas dos dados; (3) estimar parametros por meio de diversos metodos 
em Stata e SPSS; (4) interpretar os resultados obtidos por meio dos varios tipos de estimates existentes pa¬ 
ra os modelos multinivel; e (5) definir a estima^ao mais adequada para efeitos de diagnostico e previsao em 
nos casos estudados. Inicialmente, serao introduzidos os principais conceitos inerentes a cada modelagem. Na 
sequencia, serao apresentados os procedimentos para a elabora^ao dos modelos propriamente ditos em Stata 
e SPSS. 


16.2. ESTRUTURAS ANINHADAS DE DADOS 

Os modelos multinivel de regressao permitem que se investigue o comportamento de determinada variavel 
dependente Y, que representa o fenomeno de interesse, com base no comportamento de variaveis explicativas, 
nas quais altera^oes podem ocorrer, para dados agrupados, entre observances e entre grupos a que pertencem 
essas observances, e, para dados com medidas repetidas, tambem ao longo do tempo. Em outras palavras, devem 
existir variaveis que apresentam dados que se alteram entre individuos que representam determina- 
do nivel, porem permanecem inalteradas para certos grupos de individuos, sendo que esses grupos 
representam um nivel superior. 

Imagine inicialmente uma base com dados referentes a n individuos, sendo cada individuo i— 1,..., n pertencen- 
te a um dos j — 1, ...,J grupos, sendo obviamente n > J. Assim, esse banco de dados pode apresentar determinadas 
variaveis explicativas X 1? ..., Xq referentes a cada individuo i, e outras variaveis explicativas W x ,..., W s referentes a 
cada grupo 7 , porem invariantes para os individuos de determinado grupo. A Tabela 16.1 apresenta o modelo geral 
de uma base com estrutura aninhada de dados agrupados em dois niveis (individuo e grupo). 


Tabela 16.1 Modelo geral de uma base com estrutura 
aninhada de dados agrupados em dois niveis. 
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Com base na Tabela 16.1,podemos verificar que X l9 ...,X Q sao variaveis de nivel 1 (dados alteram-se entre indi¬ 
viduos) e W x ,..., W s sao variaveis de nivel 2 (dados alteram-se entre grupos, porem nao para os individuos de cada 
grupo). Alem disso, as quantidades de individuos nos grupos 1,2, ...,J sao iguais, respectivamente, a n l9 n 2 - n l9 ..., n 
- rij_ x . A Figura 16.1 permite que visualizemos o aninhamento existente entre as unidades do nivel 1 (individuos) e 
as unidades do nivel 2 (grupos), o que caracteriza a existencia de dados agrupados. 
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Caso n x — n 2 - n x = ... = n - rij_ u teremos uma estrutura equilibrada de dados aninhados. 

Imagine ainda outra base com dados em que, alem do aninhamento apresentado para dados agrupados, ha a 
evolu^ao temporal, ou seja, dados com medidas repetidas. Logo, alem dos individuos, que passarao a pertencer ao 
nivel 2 e, portanto, serao nomeados dej = 1, ...,J, aninhados nos k— 1,..., K grupos (agora pertencentes ao nivel 
3), teremos tambem t= 1,..., T) periodos em que cada individuo j e monitorado. Logo, este novo banco de dados 
pode apresentar as mesmas variaveis explicativas X u ...,Xq referentes a cada individuo j, porem agora invariantes 
para cada individuo j nos periodos de monitoramento. Alem disso, pode tambem apresentar as mesmas variaveis 
explicativas W u ..., W s referentes a cada grupo k , porem tambem invariantes ao longo do tempo para cada gru- 
po fe. A Tabela 16.2 oferece a logica com que se apresenta uma base com estrutura aninhada de dados com 
medidas repetidas em tres niveis (tempo, individuo e grupo). 


Tabela 16.2 Modelo geral de uma base com estrutura aninhada de dados com medidas repetidas em tres niveis. 


Periodo t 
(Medida 
Repetida) 
Nivel 1 

Observa^ao 
(Individuo j) 
Nivel 2 

Grupo k 
Nivel 3 

y, jk 

Xijk 

Xijk 


Xtyk 

Wn 

W 2k 


Wsk 

1 

1 

1 

Yxxx 

x m 

X 2 n 


X Qli 

W n 

W 21 


Wgx 

2 

1 

1 

Xn 

x m 

x m 


Xqu 

w n 

^21 


W sx 


: 











T, 

1 


Yt i 11 

X m 

x 21t 


Xqx 1 





T x + 1 

2 


LV, +1,21 

X\2\ 

X221 


Xq2\ 





Ti + 2 

2 


+2,21 

Xx2X 

X221 


Xq21 









: 

: 





• •• 


t 2 

2 

1 

Yt 7 2 1 

x 121 

X 221 


Xq2\ 

w n 

W 21 


Wsi 













+ 1 

j 

K 

Y t,_,+ijk 

XxjK 

X 2 JK 


x qjk 

Wx K 

W 2 K 


Ws* 

Tj-x + 2 

j 

K 

Y T,.X+2JK 

XxjK 

X 2 JK 


X QJK 

Wxk 

W 2K 


w SK 













T J 

j 

K 

Y TjJK 

XxjK 

X 2 JK 


Xqjk 

Wxk 

W 2K 


W SK 


Com base na estrutura da Tabela 16.2, podemos verificar agora que a variavel correspondente ao periodo de 
tempo e uma variavel explicativa de nivel 1, visto que os dados alteram-se em cada linha da base, e que X 1? ..., Xq 
passam a ser variaveis de nivel 2 (dados alteram-se entre individuos, porem nao para um mesmo individuo ao 
longo do tempo) e W u ..., W s passam a ser variaveis de nivel 3 (dados alteram-se entre grupos, porem nao para 
um mesmo grupo ao longo do tempo). Alem disso, as quantidades de periodos em que os individuos 1, 2, ...,J 
sao monitorados sao iguais, respectivamente, a T u T 2 - T u ..., 7] - Tj_ x . A Figura 16.2, de maneira analoga ao ex- 
posto para o caso com dois niveis, permite que visualizemos o aninhamento existente entre as unidades do nivel 
1 (varia^ao temporal), as unidades do nivel 2 (individuos) e as unidades do nivel 3 (grupos), o que acaba por ca- 
racterizar uma estrutura de dados com medidas repetidas. 







Modelos Multilevel de Regressao para Dados em Painel 


859 



Figura 16.2 Estrutura aninhada de dados com medidas repetidas em tres niveis. 


Caso T x - T 2 - Ti = ... = Tj - Tj_ u teremos um painel balanceado. 

Podemos verificar, pelas Tabelas 16.1 e 16.2, bem como nas correspondentes Figuras 16.1 e 16.2, que as es- 
truturas de dados apresentam aninhamento absoluto, ou seja, determinado individuo encontra-se aninhado a 
apenas um grupo, este a apenas outro grupo e assim sucessivamente. Entretanto, podem existir estruturas de dados 
em aninhamento com classifica^ao cruzada, em que determinadas observagoes de um grupo podem fazer 
parte de um grupo em nivel superior, com as demais fazendo parte de outro grupo em nivel superior. Por exem- 
plo, imagine o estudo do desempenho de firmas aninhadas em setores e em paises. Podem existir, por exemplo, 
firmas atuantes em mineragao e provenientes do Brasil, e outras atuantes em aviagao e tambem provenientes do 
Brasil. Entretanto, caso haja na base, por exemplo, firmas mineradoras provenientes da Australia, passa a ser carac- 
terizado o aninhamento com classificagao cruzada, fazendo-se necessaria a estimagao de modelos hierarquicos 
com classificagao cruzada (em ingles, hierarchical cross-classifed models - HCM). Estes modelos nao sao ob- 
jeto da presente edigao do livro, porem um pesquisador mais interessado podera estuda-los em profundidade em 
Raudenbush e Bryk (2002), Raudenbush et al. (2004) e Rabe-Hesketh e Skrondal (2012a, 2012b). 

Enquanto nas segoes 16.4.1 e 16.5.1 estimaremos modelos hierarquicos lineares de dois niveis com dados 
agrupados (HLM2) em Stata e SPSS, respectivamente, as segoes 16.4.2 e 16.5.2 sao destinadas a estimagao de 
modelagens hierarquicas lineares de tres niveis com medidas repetidas (HLM3) nos mesmos softwares. Antes dis- 
so, porem, e necessario que sejam apresentadas e discutidas, na proxima segao, as formulagoes algebricas de cada 
um destes modelos. 

16.3. MODELOS HIERARQUICOS LINEARES 

Nesta segao, apresentaremos as formulagoes algebricas e as especificagoes dos modelos hierarquicos lineares de 
dois niveis com dados agrupados (segao 16.3.1) e dos modelos hierarquicos lineares de tres niveis com medidas 
repetidas (segao 16.3.2). 

163.1. Modelos hierarquicos lineares de dois niveis com dados agrupados (HLM2) 

A fim de compreendermos como e definida a expressao geral de um modelo hierarquico linear com dados 
agrupados em dois niveis, precisamos usar um modelo de regressao linear multipla, cuja especificagao, baseada na 
expressao ( 12 . 1 ), e apresentada a seguir: 

Y i =^0 +b[- X \ i + h.- X 2 i +- + bQ-XQi +r i (16.1) 

em que Y representa o fenomeno em estudo (variavel dependente), b 0 representa o intercepto, b l9 b 2 , b Q sao 
os coeficientes de cada variavel, X l9 ..., Xq sao variaveis explicativas (metricas ou dummies) e r representa os ter- 
mos de erro. Os subscritos i representam cada uma das observagoes da amostra em analise (i = 1,2, ..., n, em que 
n e o tamanho da amostra). Note que alguns termos apresentam nomenelatura diferente daquela proposta no 
Capitulo 12 (por exemplo, os termos de erro), ja que outro nivel de analise sera considerado para a definigao da 
modelagem hierarquica. 
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O modelo representado pela expressao (16.1) apresenta observances consideradas homogeneas, ou seja, nao 
provenientes de grupos distintos que poderiam, por alguma razao, influenciar diferentemente o comportamento 
da variavel Y. Entretanto, poderiamos pensar em dois grupos de observances, a partir dos quais seriam estimados 
dois modelos diferentes, confer me segue: 


Y i\ ~ b 0l +b i\ X \i\ +b 2l- X 2i\ +- +b Ql X Qil +n 1 (16.2) 

Y i 2 = b 02 + b l2- X \i2 + b 22 X 2i2+- +b Q2 X Qi2 +r i2 (16.3) 

em que os coeficientes b 01 e b 02 representam, respectivamente, os valores medios esperados de Y para as observa¬ 
nces dos grupos 1 e 2, quando todas as variaveis explicativas forem iguais a zero, e b n , b 2 1 ,..., bQ 1 e b 12 , b 22 ,..., b Q2 
sao, respectivamente, os coeficientes das variaveis X u ..., Xq no modelo de cada grupo (1 e 2). Alem disso, y x e r 2 
representam os termos especificos de erro em cada modelo. 

Portanto, para j = 1, ...,J grupos, podemos escrever a expressao geral de um modelo de regressao para dados 
agrupados, considerado um modelo de primeiro nivel, da seguinte forma: 

Y ij = b Qj +b \j X \ij + b 2j X 2ij +- +b Qj X Qij +r ij 
Q 

= b Qj + Y h qj- X qij +r ij 

9=1 (16.4) 

Com objetivos didaticos e para fins de elaboranao de um grafico ilustrativo, podemos escrever a expressao dos 
valores esperados de Y , ou seja, Y, para cada observanao i pertencente a cada grupo j, quando houver apenas uma 
variavel explicativa X no modelo proposto, da seguinte forma: 


Grupo 1: 

Y n=Poi+Pn x n 

(16.5) 

Grupo 2: 

Y i2 = A)2 +P\2 X i2 

(16.6) 

Grupo J : 

Y U = Poj + PlJ X if 

(16.7) 


em que os parametros /3 sao as estimanoes dos coeficientes b, seguindo o padrao adotado no livro. 

O grafico da Figura 16.3 apresenta, de maneira conceitual, a plotagem das expressoes (16.5) a (16.7) e, por 
meio dele, verificamos que os modelos individuals que representam as observances de cada grupo podem apre- 
sentar interceptos e inclinanoes diferentes, fato que pode ocorrer em funnao de determinadas caracteristicas dos 
proprios grupos. 



Figura 16.3 Modelos individuals que representam as observances de cada um dos J grupos. 
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Logo, devem existir caracteristicas de grupos (segundo nivel), invariantes para as observa^oes pertencentes a 
cada grupo (conforme explicita aTabela 16.1), que podem explicar as diferen^as nos interceptos e nas inclina^oes 
dos modelos que representam esses grupos. Neste sentido, com base no seguinte modelo de regressao com uma 
variavel explicativa X e com observa^oes aninhadas em j = 1, ...,J grupos: 



Yy-b 0 j+b [ j.X ij +rjj 

(16.8) 

podemos escrever, da seguinte forma, as expressoes dos interceptos b 0 j e das inclina^oes 
minada variavel explicativa W, que representa uma caracteristica dos j grupos: 

Interceptos: 

by em fun^ao de deter- 

Grupo 1: 

^oi = yoo +M oi 

(16.9) 

Grupo 2: 

b 02 =y 00 +V 01 - W 2 +u 02 

(16.10) 

Grupo J: 

bo J = 700 + 70\- W J +U 0J 

(16.11) 

ou, de maneira geral: 

b0j=Y00+y01- W j +u 0j 

(16.12) 


em que y 00 representa o valor esperado da variavel dependente para determinada observa^ao i pertencente a um 
grupo j quando X — W — 0 (intercepto geral), e Yot representa a altera^ao no valor esperado da variavel depen¬ 
dente para determinada observa^ao i pertencente a um grupo j quando houver uma altera^ao unitaria na ca- 
racteristica W do grupo j, ceteris paribus. Alem disso, u 0 j representa os termos de erro que indicam a existencia 
de aleatoriedade nos interceptos que pode ser gerada pela presen^a de observa^oes provenientes de grupos 
distintos na base de dados. 

Inclina^oes: 


Grupo 1: 

bn=y\o+yu-W\+u n 

(16.13) 

Grupo 2: 

b\2=y\o + yn- w 2 +u \2 

(16.14) 

Grupo J : 

hj =y\o+y\\-Wj+u u 

(16.15) 

ou, de maneira geral: 

hj=Y\0 + YU- w j +u \j 

(16.16) 


em que y 10 representa a altera^ao no valor esperado da variavel dependente para determinada observa^ao i per¬ 
tencente a um grupo j quando houver uma altera^ao unitaria na caracteristica X do individuo i, ceteris paribus 
(mudan^a na inclinagao em razao de X), e y n representa a altera^ao no valor esperado da variavel dependente pa¬ 
ra determinada observa^ao i pertencente a um grupo j quando houver uma alteragao unitaria no produto W.X, 
tambem ceteris paribus (mudan^a na inclina^ao em razao de W.X). Alem disso, Uy representa os termos de erro 
que indicam a existencia de aleatoriedade nas inclina^oes dos modelos referentes aos grupos, que tambem 
pode ser gerada pela presenga de observa^oes provenientes de grupos distintos na base de dados. 

Combinando as expressoes (16.8), (16.12) e (16.16), chegamos a seguinte expressao: 

Y ij = (roo + 701 • W j + u 0j ) + (v\Q+yn-Wj+ u x j + ?y 

V. v J V Y j 

intercepto com inclina^ao com 

efeitos aleatorios efeitos aleatorios (16.17) 
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que facilita a visualiza^ao de que o intercepto e a inclina^ao podem sofrer influencia de termos aleatorios decor- 
rentes da existencia de observances pertencentes a grupos distintos. 

Em essencia, a modelagem multinivel representa, portanto, um conjunto de tecnicas que, alem de estima- 
rem os parametros do modelo proposto, permitem que sejam estimados os componentes de variancia dos 
termos de erro (por exemplo, no modelo da expressao (16.17), u 0 j, Uy e r {j ), bem como as respectivas sig¬ 
nificances estatisticas, a fim de que se verifique, de fato, se ocorrem aleatoriedades nos interceptos e nas in- 
clina^oes oriundas da presen^a de niveis superiores na analise. Caso nao se verifique a significance esta¬ 
tistica das variancias dos termos de erro u 0j e Uy no modelo da expressao (16.17), ou seja, se ambas forem 
estatisticamente iguais a zero, passa a ser adequada a estima^ao de um modelo de regressao linear por 
meio de metodos tradicionais, como o MQO, visto que nao se comprova a existencia de aleatoriedades 
nos interceptos e nas inclina^oes. 

Podemos assumir que os efeitos aleatorios u 0j - e Uy apresentam distribui^ao normal multivariada, possuem 
medias iguais a zero e variancias iguais, respectivamente, a T 00 e T n . Alem disso, os termos de erro r t j apresentam 
distribui^ao normal, com media igual a zero e variancia igual a G 2 . Logo, podemos definir as seguintes matrizes 
de variancia-covariancia dos termos de erro: 


var [u] = var 


u 0j 

U U 



a 01 

*11 


r[r] 


van r = var 


v 


nj 


=o 2 .I r 


(T 2 0 ••• 0 

0 <x 2 \ : 

: 0 
0 ••• 0 a 2 


(16.18) 


(16.19) 


Essas matrizes serao utilizadas na apresentanao, logo em seguida, dos metodos de estimanao dos parametros de 
um modelo multimvel. 

Fazendo uso da expressao (15.19), podemos, portanto, definir a rela^ac entre as variancias destes termos de 
erro, conhecida por correla^ao intraclasse, conforme segue: 


rho = 


* 00^11 

T 00 +/r ll +cj2 


(16.20) 


Essa correlanao intraclasse mede a proporgao de variancia total que e devida aos niveis 1 e 2. Caso seja igual 
a zero, nao ocorre variancia dos individuos entre os grupos do nivel 2. Entretanto, se for consideravelmente di- 
ferente de zero pela presen^a de ao menos um termo de erro significante decorrente da presen^a do nivel 2 na 
analise, procedimentos tradicionais de estima^ao dos parametros do modelo, como minimos quadrados ordina- 
rios, nao sao adequados. No limite, o fato de ser igual a 1, ou seja, G 2 = 0, indica que nao existem diferen^as entre 
os individuos, isto e, todos sao identicos, o que e muito pouco provavel de acontecer. Essa correla^ao e tambem 
chamada de correla^ao intraclasse de nivel 2. 

Na se^ao 16.44 faremos uso de testes de razao de verossimilhan^a com o intuito de verificar se T 00 = T n 
= 0, o que favoreceria a estima^ao de um modelo tradicional de regressao, ou ao menos se T n = 0, o que permi- 
tiria que o pesquisador optasse por um modelo com interceptos aleatorios (T 00 ^ 0) em vez de um modelo 
com inclina^oes aleatorias (T tl ^ 0). 

Podemos rearranjar a expressao (16.17), para separar o componente de efeitos fixos, no qual sao estimados 
os parametros do modelo, do componente de efeitos aleatorios, a partir do qual sao estimadas as variancias dos 
termos de erro. Assim, temos que: 


Yy - ypp + yio -Xy + ypi- Wj + y n . Wj.Xy 
Efeitos Fixos 

J rUQj J r j .Xjj + Vy 


Efeitos Aleatorios 


( 16 . 21 ) 
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que permite que o pesquisador visualize mais facilmente que o componente de efeitos aleatorios tambem po- 
de influenciar o comportamento da variavel dependente. Podemos notar, inclusive, que uma variavel explicativa 
pode fazer parte deste componente aleatorio. Estimando um modelo multinivel como este, verificaremos que, 
enquanto os efeitos fixos referem-se a rela^ao entre o comportamento de determinadas caracteristicas e o com¬ 
portamento de Y, os efeitos aleatorios permitem que se analisem eventuais distor^oes no comportamento de Y 
entre as unidades do segundo nivel de analise. 

De maneira geral, e partindo-se da expressao (16.4), podemos definir, da seguinte maneira, um modelo com 
dois niveis de analise, em que o primeiro nivel oferece as variaveis explicativas X t ,..., X Q referentes a cada indi- 
viduo i, e o segundo nivel, as variaveis explicativas ..., W s referentes a cada grupo j: 


Nivel 1: 


Q 

Yij = boj + X bqj-Xqij + r ij 


q =1 


(16.22) 


Nivel 2: 


S. 

bqj = 7q0 + X "Yqs' ^sj + u qj 
5=1 


(16.23) 


em que q = 0,1,..., Q e 5 = 1,..., S q . 

Em relagao a estima^ao do modelo, enquanto os parametros dos efeitos fixos sao estimados tradicionalmente, 
em softwares como o Stata e SPSS, por maxima verossimilhan^a (ou, em ingles, maximum likelihood estima¬ 
tion - MLE ), assim como realizado ao longo dos capitulos anteriores, os componentes de variancia dos termos de 
erro podem ser estimados tanto por maxima verossimilhan^a, quanto por maxima verossimilhan^a restrita 
(ou, em ingles, restricted estimation of maximum likelihood - REML). 

As estimates dos parametros por MLE ou por REML sao computacionalmente intensas, razao pela qual nao 
as elaboraremos algebricamente neste capitulo, como fizemos em capitulos anteriores, na aplica^ao de exemplos 
praticos. Entretanto, ambas exigem a otimizagao de determinada fungao-objetivo, que geralmente parte de va- 
lores iniciais dos parametros e usa uma sequencia de iterates para encontrar os parametros que maximizam a 
fungao de verossimilhan^a previamente definida. 

A fim de introduzirmos especificamente os conceitos pertinentes ao metodo REML, vamos imaginar, por 
exemplo, um modelo de regressao apenas com a constante, sendo Y { (i = 1,..., n) uma variavel dependente com 
distribui^ao normal, media /i e variancia (J 2 y . Enquanto a estima^ao por maxima verossimilhan^a de &\ e obtida 
considerando os n termos Y { — fl, a estima^ao de CT 2 y por REML e obtida a partir dos (n - 1) primeiros termos 
de Y { — Y h cuja distribui^ao independente de jl. Em outras palavras, a elabora^ao de um metodo de maxima ve- 
rossimilhanga a esta ultima distribui^ao gera uma estima^ao nao viesada de CJ y , por esta ser a propria variancia 
amostral obtida pela divisao dos elementos por (n - 1). Esta e a razao da estima^ao por maxima verossimilhan^a 
restrita tambem ser conhecida como estima^ao por maxima verossimilhan^a reduzida. 

Para apresentarmos as expressoes das fun^oes de verossimilhan^a e de verossimilhan^a restrita a partir das 
quais, por maximizagao, os parametros de um modelo multinivel podem ser estimados, vamos escrever, em nota- 
£ao matricial, a expressao geral de um modelo multinivel com efeitos fixos e aleatorios da seguinte forma: 

Y=A.y+B.u+r (16.24) 

em que Y e um vetor n x 1 que representa a variavel dependente, A e uma matriz nX(q + s + q- s+l) com 
dados de todas as variaveis a serem inseridas no componente de efeitos fixos do modelo, y e um vetor (q + s + 
q • s + 1) x 1 com todos os parametros de efeitos fixos estimados, B e a matriz n x (q + 1) com dados de todas 
as variaveis a serem inseridas no componentes de efeitos aleatorios u, sendo u um vetor de termos aleatorios de 
erro com dimensoes (q + 1) X 1 e com matriz de variancia-covariancia G. Alem disso, r e um vetor n x 1 de 
termos de erro com media zero e matriz de variancia a 2 • I n . Com base nas expressoes (16.18) e (16.19), pode¬ 
mos definir que: 

u 
r 


G 0 

0 o 2 .I n 


var 


(16.25) 
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e, neste sentido, a matriz de variancia-covariancia n x n de Y, dada por V, pode ser obtida da seguinte forma: 


V=B.G.B'+o .I„ (16.26) 

A partir dessa matriz, conforme demonstram Searle, Casella e McCulloch (2006), pode ser definida a seguinte 
expressao do logaritmo da fun^ao de verossimilhan^a, que deve ser maximizada (. MLE): 


LL = - i [». In (2jt)+In |'V| + (Y - A.y ) , .V _1 . (Y - A.y)] 


(16.27) 


Ainda segundo os mesmos autores, a expressao do logaritmo da fun^ao de verossimilhan^a restrita e dada, a 
partir da expressao (16.27), por: 


LL r =LL-~. In 


A'.V _1 .Al 


(16.28) 


O fato de o metodo REML gerar estimates nao viesadas das variancias dos termos de erro em modelos 
multimvel pode fazer com que o pesquisador opte incondicionalmente por seu uso. Entretanto, os testes de 
razao de verossimilhan^a baseados nas estimates obtidas por REML nao sao apropriados para se 
compararem modelos com diferentes especifica^oes dos efeitos fixos e, para essas situates em que ha 
o intuito de se elaborarem tais testes, recomendamos que as variancias dos termos de erro sejam estimadas por 
MLE, ja que e o metodo utilizado para a estima^ao dos parametros do modelo. Alem disso, e importante comen- 
tar que as diferen^as entre as estimates das variancias dos termos de erro obtidas por REML ou por MLE sao 
praticamente inexistentes para grandes amostras. 

Na proxima se^ao, apresentaremos a especificagao dos modelos hierarquicos lineares de tres niveis com me- 
didas repetidas, mantendo a logica proposta. 


16.3.2. Modelos hierarquicos lineares de tres niveis com medidas repetidas (HLM3) 

Seguindo a logica proposta na se^ao anterior, vamos apresentar a especificagao de um modelo hierarquico 
linear de tres niveis, em que ha a presen^a de dados com medidas repetidas, ou seja, com evolu^ao temporal na 
variavel dependente. 

De maneira geral, e seguindo a logica apresentada em Raudenbush et al. (2004), um modelo hierarquico de 
tres niveis apresenta tres submodelos, sendo um para cada nivel de analise da estrutura aninhada de dados. Logo, 
com base nas expressoes (16.22) e (16.23), podemos definir, da seguinte maneira, um modelo geral de tres niveis 
de analise com dados aninhados, em que o primeiro nivel apresenta as variaveis explicativas Z x ,..., Z P referentes 
as unidades i (i = 1,..., n) de nivel 1, o segundo nivel, as variaveis explicativas X u ..., Xq referentes as unidades j 
(j = 1,...,_/) de nivel 2, e o terceiro nivel, as variaveis explicativas W u ..., W s referentes as unidades k (k = 1,..., 
K) de nivel 3: 

P 

Nivel 1: Y ijk =n Ojk + y L n pjk- Z pjk +e ijk (16.29) 

/>=1 

em que K p j k (p = 0,1,..., P) referem-se aos coeficientes de nivel 1, Z pjk e umap-esima variavel explicativa de ni¬ 
vel 1 para a observa^ao i na unidade de nivel 2 j e na unidade de nivel 3 k, e e ijk refere-se aos termos de erro do 
nivel 1 com distribui^ao normal, com media igual a zero e variancia igual a O 2 . 

G, 

Nivel 2: %pjk = bp0k + ^ b P^ k ' X<pk + r PJ k (16.30) 

em que b pqk (q — 0, 1, ..., Q p ) referem-se aos coeficientes de nivel 2, X^ k e uma ^-esima variavel explicativa de 
nivel 2 para a unidade j na unidade de nivel 3 k, e r pjk sao os efeitos aleatorios do nivel 2, assumindo-se, para cada 
unidade j, que o vetor (r 0jfe , r ljh ..., r P j k )' apresenta distribui^ao normal multivariada com cada elemento possuindo 
media zero e variancia T mpp . 
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Nivel 3: 


bpqk — JpqO ^ ypqs * ^sk u pqk 
5=1 


(16.31) 


em que y s (s = 0,1, S pq ) referem-se aos coeficientes de nivel 3, W sk e uma 5-esima variavel explicativa de nivel 
3 para a unidade k, e u pqk sao os efeitos aleatorios do nivel 3, assumindo-se que para cada unidade k, o vetor com- 
posto pelos termos u pqk apresenta distribuigao normal multivariada com cada elemento possuindo media zero e 
variancia T u7tpp , que resulta na matriz de variancia-covariancia T b com dimensao maxima igual a: 


Dim max T b 


p 

= x 

P =0 


p 

X 

P =0 


X(e, +1 )-X(fip +1 ) 


(16.32) 


que depende da quantidade de coeficientes do nivel 3 especificados com termos aleatorios. 

A fim de mantermos a logica apresentada na segao anterior, e com o intuito de facilitar a compreensao do 
exemplo que sera elaborado nas segoes 16.4.2 e 16.5.2, imaginemos agora que exista uma unica variavel explica¬ 
tiva de nivel 1, correspondente aos periodos de tempo em que sao monitorados os dados da variavel dependente. 
Em outras palavras, as unidades j do nivel 2, aninhadas as unidades k do nivel 3, sao monitoradas por um periodo 
de tempo t (t= 1,..., TJ), o que faz com que o banco de dados apresente j series de tempo, conforme ja mostrava 
aTabela 16.2. O intuito e verificar se existem discrepancias na evolugao temporal dos dados da variavel depen¬ 
dente e, em caso afirmativo, se essas ocorrem em fungao de caracteristicas das unidades de nivel 2 e de nivel 3. 
Esta evolugao temporal e o que caracteriza o termo medidas repetidas. 

Neste sentido, a expressao (16.29) pode ser reescrita conforme segue, em que os subscritos i passam a ser 
subscritos t: 


Y tjk - jk + K \ jk • periodo j k + e tjk 


(16.33) 


em que 7t 0 j k representa o intercepto do modelo correspondente a evolugao temporal da variavel dependente da 
unidade j do nivel 2 aninhada a unidade k do nivel 3, e 7Ty k corresponde a evolugao media (inclinagao) da varia¬ 
vel dependente para a mesma unidade ao longo do periodo analisado. Os submodelos correspondentes aos niveis 
2 e 3 permanecem com as mesmas especificagoes daquelas apresentadas, respectivamente, nas expressoes (16.30) 
e (16.31). 

O grafico da Figura 16.4 apresenta, de maneira conceitual, a plotagem do conjunto de modelos representados 
pela expressao (16.33) e, por meio dele, verificamos que os modelos individuals que representam as unidades j 
do nivel 2 podem apresentar interceptos e inclinagoes diferentes ao longo do periodo t, fato que pode ocorrer 
em fungao de determinadas caracteristicas das proprias unidades j do nivel 2, ou de caracteristicas das unidades 
k do nivel 3. 


— 



v_:_; 


Figura 16.4 Modelos individuals que representam as evolugoes temporal's da variavel 
dependente para cada uma das J unidades do nivel 2. 
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Logo, devem existir caracteristicas das unidades j do nivel 2, invariantes temporalmente, e das unidades k do 
nivel 3, invariantes tambem para as unidades j do nivel 2 aninhadas a cada unidade k do nivel 3 (conforme expli- 
cito naTabela 16.2), que podem explicar as diferen^as nos interceptos e nas inclina^oes dos modelos Y tjk = K 0 j k 
+ Ky k . periodo^ representados na Figura 16.4. 

Neste sentido, supondo existir uma unica variavel explicativa X, que rep resen ta uma caracteristica das j unidades 
do nivel 2, e uma unica variavel explicativa W, que representa uma caracteristica das k unidades do nivel 3,podemos 
definir, a partir da expressao (16.33) e com base nas expressoes (16.30) e (16.31), o seguinte modelo com tres niveis 
de analise, em que o primeiro nivel refere-se a medida repetida e contem apenas a variavel temporal: 


Nivel 1: 

Y ljk *0 jk ^1 jk • pcriodoy^ + 

(16.34) 

Nivel 2: 

n 0jk = *00 k +*01 k- x jk +r 0jk 

(16.35) 


K \ jk = b \Qk + *1 Ik X jk + r \ jk 

(16.36) 

Nivel 3: 

*00 k = 7000 + 7001- W k +u 00k 

(16.37) 


*01/t = 7010 +7011- W k + u 0\k 

(16.38) 


*10 k =7100 + 7l01-^ +u l0k 

(16.39) 


*11 k =7ll0+7l11-^+Kll/t 

(16.40) 


Combinando as expressoes (16.34) a (16.39), chegamos a seguinte expressao: 


Y tjk - ( y000 + ym- w k + yo\0- X jk + yOU W k- X jk + u 00k +M 01 k- X jk +r 0jk) 

intercepto com efeitos aleatorios 


+ (yi 00 + 7l 0 1 • W k + 71 1 0 - X jk + 7l 1 1 • w k-Xjk +u l Ok + u \ Ik X jk + r \jk ) • peri odoy*. 
inclinaf ao com efeitos aleatorios 


+ e tjk 


(16.41) 


em que y 000 representa o valor esperado da variavel dependente no instante inicial e quando X = W = 0 (inter¬ 
cepto geral), y 001 representa o incremento no valor esperado da variavel dependente no instante inicial (altera^ao 
no intercepto) para determinada unidade j de nivel 2 pertencente a uma unidade k de nivel 3 quando houver al- 
tera^ao unitaria na caracteristica W de k, ceteris paribus, y 0l0 representa o incremento no valor esperado da variavel 
dependente no instante inicial para determinada unidade jk quando houver altera^ao unitaria na caracteristica X 
dej, ceteris paribus, e y on representa o incremento no valor esperado da variavel dependente no instante inicial pa¬ 
ra determinada unidade jk quando houver altera^ao unitaria no produto W.X, tambem ceteris paribus. Mem disso, 
u ook e u oik representam os termos de erro que indicam a existencia de aleatoriedade nos interceptos, sendo 
que o ultimo incide sobre altera^oes na variavel X. 

Alem disso, y 100 representa a altera^ao no valor esperado da variavel dependente quando houver altera^ao 
unitaria no periodo de analise (mudan^a na inclina^ao em razao da evolu^ao temporal unitaria), ceteris paribus , 
y m representa a altera^ao no valor esperado da variavel dependente em razao da evolu^ao temporal unitaria para 
determinada unidade jk quando houver altera^ao unitaria na caracteristica W , ceteris paribus, y no representa a al- 
tera^ao no valor esperado da variavel dependente em razao da evolu^ao temporal unitaria para determinada uni¬ 
dade jk quando houver altera^ao unitaria na caracteristica X, ceteris paribus, e y in representa a altera^ao no valor 
esperado da variavel dependente em razao da evolu^ao temporal unitaria para determinada unidade jk quando 
houver altera^ao unitaria no produto W.X, tambem ceteris paribus. Por fim, u 10k e u nk representam os termos de 
erro que indicam a existencia de aleatoriedade nas inclinasoes, sendo que o ultimo tambem incide sobre 
altera^oes na variavel X. 

A expressao (16.41) facilita a visualiza^ao de que o intercepto e a inclina^ao podem sofrer influencia de 
termos aleatorios decorrentes da existencia de comportamentos distintos da variavel dependente ao longo do 
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tempo para cada uma das unidades do mvel 2 (distintas series de tempo), e esse fenomeno pode ser decorrente 
das caracteristicas dessas unidades, bem como das caracterfsticas dos grupos a que pertencem tais unidades. 

Se o pesquisador desejar elaborar uma analise acerca dos componentes de efeitos fixos e aleatorios que podem 
influenciar o comportamento da variavel dependente, dado que este procedimento inclusive facilita a insergao 
dos comandos para elaboragao de modelagens multimvel em Stata e em SPSS, conforme veremos mais adiante, 
basta rearranjar os termos da expressao (16.41), conforme segue: 


Y tjk = ym + ym- w k + ym- x jk+yon- w k- x jk 1 .. 

> Efeitos Fixos 

+ 00 • periodo^ + y m .w k . periodo,*+ ft, 0 .X Jk . periodcy +y ul .W k ,X jk . periodo,* J 


+ u 00k + «0 \k %jk + “l0 k- penodo jk +u \\k-%jk■ pen'odo j k +r 0 j k + t\ jk . periodo j k + e t j k 

Efeitos Aleatorios 


(16.42) 


Em modelos hierarquicos de tres niveis podemos definir duas correlates intraclasse, dada a existencia de duas 
proporgoes de variancia, sendo uma correspondente ao comportamento dos dados pertencentes as mesmas uni¬ 
dades j de mvel 2 e mesmas unidades k de mvel 3 (correlagao intraclasse de mvel 2), e outra correspondente 
ao comportamento dos dados pertencentes as mesmas unidades k de mvel 3, porem provenientes de diferentes 
unidades j de nivel 2 (correlagao intraclasse de mvel 3). Nas segoes 16.4.2 e 16.5.2, elaboraremos os calculos 
dessas correlates intraclasse quando da aplicagao de exemplos praticos, respectivamente, em Stata e SPSS. 

A partir da expressao (16.34),podemos definir, conforme segue, as expressoes gerais dos submodelos de niveis 
2 e 3 de uma analise hierarquica com tres niveis e medidas repetidas, em que o segundo mvel oferece as variaveis 
explicativas X 1? ..., Xq referentes a cada unidade j , e o terceiro mvel, as variaveis explicativas W l9 ..., W s referen- 
tes a cada unidade k: 

Nivel 2: Q (16.43) 

^pjk ~ bpOk ^ bpqk 'Xqjk r pjk 

q =1 

Nivel 3: ^ (16.44) 

bpqk = ypqO Jpqs * ^sk u pqk 

s =1 

Analogamente ao apresentado com os modelos hierarquicos de dois niveis na segao anterior, enquanto os 
parametros dos efeitos fixos sao estimados tradicionalmente, em softwares como o Stata e o SPSS, por maxima 
verossimilhanga, os componentes de variancia dos termos de erro podem ser estimados tanto por maxima veros- 
similhanga, quanto por maxima verossimilhanga restrita, conforme veremos nas proximas segoes quando estimar- 
mos modelos hierarquicos de tres niveis por meio desses softwares. 

Frente ao exposto, enquanto na Segao 16.4 elaboraremos modelagens hierarquicas de dois niveis com dados 
agrupados e de tres niveis com medidas repetidas em Stata, na segao 16.5 elaboraremos as mesmas modelagens, 
porem em SPSS. Os exemplos adotados respeitam a logica adotada ao longo do livro. 


16.4. ESTIMA^AO DE MODELOS HIERARQUICOS LINEARES NO SOFTWARE STATA 

O objetivo desta segao e propiciar ao pesquisador uma oportunidade de elaboragao de procedimentos de 
modelagem multimvel por meio do Stata Statistical Software®. A reprodugao das imagens nesta segao tern auto- 
rizagao da StataCorp LP°. 

16.4.1. Estimagao de um modelo hierarquico linear de dois niveis com dados agrupados 
no software Stata 

Apresentaremos um exemplo que segue a mesma logica dos capitulos anteriores, porem com dados que va- 
riam entre individuos e entre grupos a que pertencem esses individuos, caracterizando uma estrutura aninhada. 

Imagine que o nosso sagaz e talentoso professor, que ja explorou consideravelmente os efeitos de determina- 
das variaveis explicativas sobre o tempo de deslocamento de um grupo de alunos ate a escola, sobre a probabili- 
dade de se chegar atrasado as aulas, sobre a quantidade de atrasos que ocorrem semanal ou mensalmente e sobre 
o desempenho escolar desses alunos ao longo do tempo, por meio, respectivamente, de modelos de regressao 
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multipla, de regressao logistica binaria e multinomial, de regressao para dados de contagem e de regressao com 
dados longitudinals, tenha agora o interesse em ampliar sua pesquisa para outras escolas, investigando se existem 
diferen^as no comportamento do desempenho escolar entre estudantes provenientes de escolas distintas e, em 
caso afirmativo, se essas diferen^as ocorrem em fun^ao de caracteristicas das proprias escolas. 

Neste sentido, o professor conseguiu dados sobre o desempenho escolar (nota de 0 a 100 mais um bonus 
por participa^ao em sala) de 2.000 estudantes provenientes de 46 escolas. Alem disso, tambem conseguiu da¬ 
dos a respeito do comportamento dos estudantes, como quantidade semanal de horas de estudo, e dados re- 
ferentes a natureza de cada uma das escolas (publica ou privada) e ao tempo medio de experiencia docente 
dos professores em cada uma delas. Parte do banco de dados elaborado encontra-se na Tabela 16.3, porem a 
base de dados completa pode ser acessada por meio dos arquivos DesempenhoAlunoEscola.xls (Excel) e 
DesempenhoAlunoEscola.dta (Stata). 


Tabela 16.3 Exemplo: desempenho escolar e caracteristicas de estudantes (nivel 1) e de escolas (nivel 2). 


Estudante i 
(Nivel 1) 

Escola j 
(Nivel 2) 

Desempenho escolar 
(Y,y) 

Quantidade semanal 
de horas de estudo 
(X,) 

Tempo medio, 
em anos, de 
experiencia dos 
docentes (IVy) 

Escola publica ou 
privada (W 2j ) 

1 

1 

35,4 

11 

2 

publica 

2 

1 

74,9 

23 

2 

publica 


47 

1 

24,8 

9 

2 

publica 

48 

2 

41,0 

13 

2 

publica 


72 

2 

65,2 

20 

2 

publica 


121 

4 

66,4 

20 

9 

privada 


140 

4 

93,4 

27 

9 

privada 


1.995 

46 

44,0 

15 

2 

publica 


2.000 

46 

56,6 

17 

2 

publica 


Apos abrirmos o arquivo DesempenhoAlunoEscola.dta, podemos digitar o comando desc, que faz com 
que seja possivel analisarmos as caracteristicas do banco de dados, como a quantidade de observa^oes, a quantida¬ 
de de variaveis e a descri^ao de cada uma delas. A Figura 16.5 apresenta este primeiro output do Stata. 


. desc 





obs: 

2,000 




vars: 

6 




size: 

42,000 





storage 

display 

value 


variable name type 

format 

label 

variable label 

estudante 

int 

%8.0g 


estudante i (nivel 1) 

escola 

int 

%8.0g 


escola j (nivel 2) 

desempenho 

float 

%9. If 


desempenho escolar 

horas 

byte 

%8.0g 


quantidade semanal de horas de estudo do 
aluno 

texp 

float 

%9.0g 


tempo medio de experiencia docente dos 
professores da escola (anos) 

priv 

float 

%9.0g 

priv 

natureza da escola (publica ou privada) 

Sorted by: 

estudante 





Figura 16.5 Descri^ao do banco de dados DesempenhoAlunoEscola.dta. 
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Inicialmente, podemos obter informagoes acerca da quantidade de alunos que foram pesquisados pelo profes¬ 
sor em cada escola, por meio do seguinte comando: 

tabulate escola, subpop(estudante) 

Os outputs sao apresentados na Figura 16.6 e, por meio destes, podemos verificar que estamos diante de uma 

estrutura desequilibrada de dados agrupados. 


1 . tabulate escola. 

subpop(estudante) 


escola j 

1 




(nivel 2) 

1 

Freq. 

Percent 

Cum. 






1 

I 

47 

2.35 

2.35 

2 

1 

25 

1.25 

3.60 

3 

1 

48 

2.40 

6.00 

4 

1 

20 

1.00 

7.00 

5 


48 

2.40 

9.40 

6 

1 

30 

1.50 

10.90 

7 

1 

28 

1.40 

12.30 

8 

1 

35 

1.75 

14.05 

9 

1 

44 

2.20 

16.25 

10 

1 

33 

1.65 

17.90 

11 

1 

57 

2.85 

20.75 

12 

1 

62 

3.10 

23.85 

13 

1 

53 

2.65 

26.50 

14 

1 

27 

1.35 

27.85 

15 

1 

53 

2.65 

30.50 

16 

1 

28 

1.40 

31.90 

17 

1 

29 

1.45 

33.35 

18 

1 

39 

1.95 

35.30 

19 

1 

47 

2.35 

37.65 

20 

1 

60 

3.00 

40.65 

21 

1 

61 

3.05 

43.70 

22 

1 

67 

3.35 

47.05 

23 

1 

47 

2.35 

49.40 

24 

1 

57 

2.85 

52.25 

25 

1 

52 

2.60 

54.85 

26 

1 

57 

2.85 

57.70 

27 

1 

38 

1.90 

59.60 

28 

1 

57 

2.85 

62.45 

29 

1 

42 

2.10 

64.55 

30 

1 

38 

1.90 

66.45 

31 

1 

52 

2.60 

69.05 

32 

1 

45 

2.25 

71.30 

33 

1 

47 

2.35 

73.65 

34 

1 

25 

1.25 

74.90 

35 

1 

55 

2.75 

77.65 

36 

1 

42 

2.10 

79.75 

37 

1 

43 

2.15 

81.90 

38 

1 

48 

2.40 

84.30 

39 

1 

46 

2.30 

86.60 

40 

1 

53 

2.65 

89.25 

41 

1 

59 

2.95 

92.20 

42 

1 

21 

1.05 

93.25 

43 

1 

39 

1.95 

95.20 

44 

1 

52 

2.60 

97.80 

45 

1 

38 

1.90 

99.70 

46 

1 

6 

0.30 

100.00 






Total 

1 

2,000 

100.00 



Figura 16.6 Quantidade de estudantes por escola. 


O desempenho medio dos estudantes por escola, que pode ser analisado na Figura 16.7, pode ser obtido por 
meio dos seguintes comandos: 

bysort escola: egen desempenho medio = mean(desempenho) 
tabstat desempenho_medio , by(escola) 
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|| . bysort escola: egen 

desempenho medio = 

mean(desempenho) 

1 . tabstat 

desempenho_medio, by(escola) 


Summary for variables 

desempenho medio 


by categories of 

escola (escola j 

(nivel 2)) 

escola | 

mean 

escola | 

mean 





1 1 

50.38936 

24 | 

58.54211 

2 I 

62.796 

25 | 

52.57116 

! 3 | 

43.94375 

26 | 

67.31403 

4 I 

75.025 

27 | 

62.13158 

5 | 

56.23333 

28 | 

71.18597 

6 I 

56.93667 

29 | 

41.76429 

7 I 

51.73214 

30 | 

55.77369 

8 1 

92.93143 

31 I 

57.9 

9 1 

84.92728 

32 | 

60.86 

10 | 

70.95454 

33 | 

75.65958 

11 | 

66.56842 

34 | 

54.892 

12 | 

64.72258 

35 | 

57.33636 

13 | 

44.24151 

36 | 

62.98333 

14 | 

42.73333 

37 | 

45.33023 

15 | 

69.16415 

38 | 

89.3 

16 | 

65.86072 

39 | 

51.07391 

17 | 

74.81724 

40 | 

61.02641 

18 | 

60.34103 

41 | 

59.88983 

19 | 

58.83617 

42 | 

77.0619 

20 | 

66.77 

43 | 

49.32564 

21 | 

45.14262 

44 | 

61.125 

22 | 

50.40448 

45 | 

63.06579 

23 | 

71.09787 

46 | 

42.65 



-—- +• 

Total | 

60.8596 


Figura 16.7 Desempenho medio dos estudantes por escola. 


E, para finalizarmos este diagnostico inicial, podemos elaborar urn grafico que permite a visualiza^ao do de¬ 
sempenho medio dos estudantes por escola. Este grafico, apresentado na Figura 16.8, e pode ser obtido pela di- 
gita^ao do seguinte comando: 

graph twoway scatter desempenho escola || connected desempenho_medio 
escola, connect(L) || , ytitie(desempenho escolar) 



Figura 16.8 Desempenho escolar medio dos estudantes por escola. 


Caracterizado o aninhamento dos estudantes em escolas com base nos dados agrupados do nosso exemplo, 
vamos partir para a modelagem multimvel propriamente dita, elaborando os procedimentos com foco na esti- 
ma^ao de um modelo hierarquico linear de dois mveis (estudantes e escolas). Na modelagem do desempenho 
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escolar, embora uma possibilidade seja a inclusao, no componente de efeitos fixos, de variaveis dummy que repre- 
sentem escolas, vamos tratar estas unidades de nivel 2 como efeitos aleatorios para a estimagao destes modelos. 

O primeiro modelo a ser estimado, conhecido por modelo nulo ou modelo nao condicional, permite 
que verifiquemos se existe variabilidade do desempenho escolar entre estudantes provenientes de escolas dife- 
rentes, ja que nenhuma variavel explicativa sera inserida na modelagem, que considera apenas a existencia de um 
intercepto e dos termos de erro u 0 j e r ( j, com variancias respectivamente iguais a T 00 e CT 2 . O modelo a ser estima¬ 
do, portanto, apresenta a seguinte expressao: 

Modelo Nulo: 

desempenho^ = Bqj + 

b 0 j -7oo +M b./ 

que resulta em: 

desempenho^ = ^qo +Uqj +ry 


O comando para a estimagao do modelo nulo no Stata, para os dados do nosso exemplo, e: 

xtmixed desempenho || escola: , var nolog reml 

em que o termo xtmixed refere-se a estimagao de qualquer modelo hierarquico linear e a primeira variavel a 
ser inserida corresponde a variavel dependente, assim como em qualquer outra estimagao de um modelo de re¬ 
gressao, com variaveis explicativas podendo ser incluidas em sequencia. Alem disso, ha uma segunda parte do co¬ 
mando xtmixed, iniciada pelo termo | |. Enquanto a primeira parte do comando corresponde aos efeitos fixos, 
a segunda parte diz respeito aos efeitos aleatorios que podem ser gerados pela existencia de um segundo nivel de 
analise, referente, no caso, as escolas (dai a segunda parte iniciar com o termo escola: ). O termo var faz com 
que sejam apresentados, nos outputs , as estimagoes das variancias dos termos de erro u 0 j e (T 00 e C7 2 , respectiva¬ 
mente), em vez dos desvios-padrao.Ja o termo nolog apenas faz com que nao sejam apresentados, nos outputs, os 
resultados das iteragoes para a maximizagao do logaritmo da fungao de verossimilhanga restrita. Por fim, o pes- 
quisador ainda tern a opgao de definir o metodo de estimagao a ser utilizado, usando os termos reml (maxima 
verossimilhanga restrita) ou mle (maxima verossimilhanga) 1 . 

Os outputs gerados estao na Figura 16.9. 


. xtmixed desempenho || escola 

, var nolog reml 



Mixed-effects REML regression 


Number 

of obs = 

2000 

Group variable: escola 


Number 

of groups = 

46 



Obs per group: min = 

6 




avg = 

43.5 




max = 

67 



Wald chi2(0) 


Log restricted-likelihood = -8752.0205 

Prob > 

chi2 = 


desempenho | Coef. Std. Err. 

z P>|z| 

[95% Conf. 

Interval] 

_cons | 61.04901 1.776135 34. 

37 0.000 

57.56785 

64.53017 


Random-effects Parameters 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

escola: Identity | 





var(_cons) j 

135.7793 

30.75008 

87.10859 

211.644 

var(Residual) | 

347.5617 

11.12078 

326.4347 

370.056 

LR test vs. linear regression: 

chibar2(01) 

= 486.01 Prob >= chibar2 

= 0.0000 


Figura 16.9 Outputs do modelo nulo no Stata. 


1 O comando xtmixed passou a estar disponivel na versao 9 do Stata (a partir de 2005), e ate a versao 12 e o comando para a estimagao 
de modelos hierarquicos lineares,com metodo padrao de estimagao por maxima verossimilhanga restrita (REML). A partir da versao 13 do 
Stata, as estimagoes de modelos hierarquicos lineares podem ser elaboradas por meio dos comandos xtmixed ou simplesmente mixed, 
porem o metodo de estimagao padrao, quando nao especificado pelo pesquisador, passa a ser o de maxima verossimilhanga (MLE). 
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A partir dos outputs da Figura 16.9, podemos incialmente verificar que a estima^ao do parametro y 00 e igual a 
61,049, que corresponde a media dos desempenhos escolares esperados dos estudantes (reta horizontal estimada 
no modelo nulo, ou intercepto geral) 2 . Alem disso, na parte inferior dos outputs, sao apresentadas as estimates das 
variancias dos termos de erro T 00 = 135,779 (no Stata, var (_cons) ) e (f = 347,562 (no Stata, var (Residual)). 
Com base na expressao (16.20), podemos calcular a seguinte correla^ao intraclasse: 


rho 


= *00 = 135,779 

Tqo+o 2 135,779 + 347,562 


= 0,281 


que indica que aproximadamente 28% da variancia total do desempenho escolar e devido a altera^ao entre es- 
colas, representando um primeiro indicio de existencia de variabilidade no desempenho escolar dos estudantes 
provenientes de escolas diferentes. A partir da versao 13 do Stata, e possivel obter diretamente essa correla^ao in¬ 
traclasse, digitando-se o comando estat icc logo apos a estima^ao do correspondente modelo. 

Embora o Stata nao mostre diretamente o resultado dos testes z com os respectivos niveis de significance 
para os parametros de efeitos aleatorios, o fato de a estima^ao do componente de variancia T 00 , correspon¬ 
dente ao intercepto aleatorio m 0 -, ser consideravelmente superior ao seu erro-padrao indica varia^ao signifi- 
cante no desempenho escolar entre escolas. Estatisticamente, podemos verificar que z — 135,779 / 30,750 
= 4,416 > 1,96, sendo 1,96 o valor critico da distribui^ao normal padrao que resulta em um nivel de signi¬ 
ficance de 5%. 

Essa informa^ao e bastante importante para embasar a escolha da modelagem hierarquica, em 
detrimento de uma modelagem tradicional de regressao por MQO, e e a principal razao para que 
seja estimado sempre um modelo nulo na elabora^ao de analises multimvel. 

Na parte inferior da Figura 16.9 podemos comprovar esse fato, analisando o resultado do teste de razao de ve- 
rossimilhan^a (LR test, ou likelihood ratio test). Como Sig. % 2 — 0,000, podemos rejeitar a hipotese nula de que os 
interceptos aleatorios sejam iguais a zero (FI 0 : u 0j - = 0), o que faz com que a estima^ao de um modelo tradicional 
de regressao linear seja descartada para os dados agrupados do nosso exemplo. 

Vamos primeiramente investigar se a variavel explicativa de nivel 1, horas, apresenta rela^ao com o compor- 
tamento do desempenho escolar dos estudantes provenientes de uma mesma escola (varia^ao entre estudantes) e 
provenientes de escolas distintas (varia^ao entre escolas). Um primeiro diagnostico pode ser elaborado por meio 
da digita^ao do seguinte comando, que gera o grafico da Figura 16.10: 

statsby intercept=_b[_cons] slope=_Jb[horas], by(escola) saving(ols, 
replace): reg desempenho horas 

sort escola 

merge escola using ols 
drop _merge 

gen yhat_ols= intercept + slope*horas 
sort escola horas 
separate desempenho, by(escola) 
separate yhat__ols, by (escola) 

graph twoway connected yhat_olsl-yhat_ols46 horas || lfit desempenho 
horas r clwidth(thick) clcolor(black) legend(off) ytitle(desempenho 
escolar) 


2 Um pesquisador mais curioso podera verificar este fato, digitando o comando predict yhat logo apos a estimado do modelo nulo. 
Uma nova variavel (yhat) sera gerada no banco de dados, com todos os valores iguais a 61,049 (na realidade, uma constante). 
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Figura 16.10 Desempenho escolar em fungao da variavel horas (variagao entre estudantes 
de uma mesma escola e entre escolas diferentes). 


O grafico da Figura 16.10 apresenta o ajuste linear por MQO, para cada escola, do comportamento do de¬ 
sempenho escolar de cada estudante em fungao da quantidade semanal de horas de estudo. Podemos verificar 
que, embora haja melhoria substancial no desempenho escolar a medida que a quantidade semanal de horas de 
estudo aumenta (felizmente), essa relagao nao e a mesma para todas as escolas. Mais do que isso, os interceptos de 
cada modelo sao nitidamente distintos. 

Portanto, nosso dever passa a ser o de investigar se ocorrem efeitos aleatorios nos interceptos e nas inclina- 
goes gerados pela variavel horas, em decorrencia da existencia de diversas escolas. Em caso afirmativo, deveremos, 
posteriormente, investigar se determinadas caracteristicas das escolas podem responder por tal fato. Note que este 
ultimo comando tambem gera um novo arquivo em Stata (ols.dta), em que podem ser analisadas as diferengas 
entre as escolas. 

Caso o pesquisador optasse por nao incluir efeitos aleatorios na modelagem, ou seja, caso o teste de razao de 
verossimilhanga elaborado na estimagao do modelo nulo nao rejeitasse H 0 (u 0 j = 0),bastaria que fosse digitado o se- 
guinte comando, conforme estudamos no Capitulo 12, para que os parametros do nosso modelo fossem estimados: 

reg desempenho horas 

Apenas para fins didaticos, os parametros estimados na digitagao deste ultimo comando (reg), cujos outputs 
nao sao apresentados aqui, sao iguais aos que seriam obtidos por meio do seguinte comando: 

xtmixed desempenho horas, reml 

ja que o termo xtmixed sem a especificagao de efeitos aleatorios faz com que sejam estimados, por maxima ve¬ 
rossimilhanga restrita (termo reml), parametros com valores identicos aos que sao estimados por minimos qua- 
drados ordinarios (regressao linear apenas com efeitos fixos). 

Com base na logica proposta, vamos, inicialmente, inserir efeitos aleatorios de intercepto no nosso modelo 
multimvel, que passara a ter a seguinte especificagao: 

Modelo com Interceptos Aleatorios: 

desempenhoy +b[j.horasy +jy 

b oj = yoo +u oj 

hj=y io 




874 Manual de Analise de Dados: Estatistica e Modelagem Multivarlada com Excel®, SPSS® e Stata' 


que resulta na seguinte expressao: 

desempenhoy = y 0 Q+yi( ) .horas i j +u 0 j +Vy- 

O comando para a estima^ao do modelo com interceptos aleatorios no Stata, para os dados do nosso exem- 
plo, e: 

xtmixed desempenho horas || escola: , var nolog reml 

que gera os outputs da Figura 16.11. 


II . xtmixed desempenho horas || escola: , var nolog reml 



I Mixed-effects REML regression 

Number 

of obs = 

2000 

Group variable: escola 


Number 

of groups = 

46 



Obs per group: min = 

6 




avg = 

43.5 




max = 

67 



Wald chi2(1) 

19709.41 

Log restricted-likelihood = 

-6372.1643 

Prob > 

chi2 

0.0000 

desempenho | Coef. 

Std. Err. 

z P>|z| 

[95% Conf. 

Interval] 

horas | 3.251924 

.0231635 140 

39 0.000 

3.206525 

3.297324 

_cons | .5344677 

.7875305 0 

68 0.497 

-1.009064 

2.077999 


Random-effects Parameters 

| Estimate 

Std. Err. 

[95% Conf. 

Interval] 

escola: Identity 

1 




var(_cons) 

| 19.12534 

4.199479 

12.4367 

29.41123 

var(Residual) 

| 31.76378 

1.016389 

29.83288 

33.81966 

| LR test vs. linear regression: chibar2(01) 

= 816.88 Prob >= chibar2 

= 0.0000 


Figura 16.11 Outputs do modelo com interceptos aleatorios. 


Da mesma forma, a parte superior dos outputs mostra os efeitos fixos do nosso modelo, que contempla 46 in¬ 
terceptos separados (um para cada escola), embora nao diretamente apresentados. Ja a parte inferior corresponde 
a estima^ao das variancias dos termos de erro T 00 = 19,125 e (f — 31,764. A correla^o intraclasse deste modelo 
e calculada da seguinte forma: 


r/?o = _i0CL_ 

Tqo+CJ 


19,125 

19,125 + 31,764 


= 0,376 


que mostra um incremento da propor^ao do componente de variancia correspondente ao intercepto em rela^ao 
ao modelo nulo, demonstrando a importancia da inclusao da variavel horas para o estudo do comportamento do 
desempenho escolar na compara^ao entre escolas. Assim como ja verificado no modelo nulo, a estima^ao do com¬ 
ponente de variancia T 00 e quase cinco vezes superior ao seu erro-padrao (z — 19,125/4,199 — 4,555 > 1,96), in- 
dicando haver varia^ao significante no desempenho escolar medio entre escolas em decorrencia da existencia de 
interceptos aleatorios (os interceptos variam de maneira estatisticamente significante de escola para escola). 

Por meio da analise do resultado do teste de razao de verossimilhan^a (LR test, ou likelihood ratio test), pode- 
mos aqui tambem rejeitar a hipotese nula de que os interceptos aleatorios sejam iguais a zero (H 0 : u 0 j = 0), ja que 
Sig. X 2 = 0,000, comprovando que a estima^ao de um modelo tradicional de regressao linear apenas com efeitos 
fixos seja descartada. 

O nosso modelo, portanto, passa a ter, no presente momento, a seguinte especifica^ao: 


desempenhoij = 0,534 + 3, 252.horas^ + uqj + 

em que o efeito fixo do intercepto corresponde agora a media esperada dos desempenhos escolares, entre escolas, 
dos alunos que, por alguma razao, nao estudam ( horas = 0). Por outro lado, uma hora a mais de estudo semanal, 
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em media, faz com que a media esperada dos desempenhos escolares, entre escolas, seja incrementada em 3,252 
pontos, sendo este parametro estatisticamente significante. 

Apenas para fins didaticos, como esta ultima estima^ao representa um modelo em que o componente aleato- 
rio contem apenas interceptos, o metodo de maxima verossimilhan^a (nao restrita) geraria estimates dos para- 
metros identicas as que seriam obtidas por uma estima^ao tradicional considerando dados em painel (conforme 
estudamos no Capitulo 15). Alem disso, um pesquisador ainda mais curioso poderia verificar que a elabora^ao 
de um modelo linear generalizado multimvel (ou, em ingles, generalized linear latent and mixed model - 
GLLAMM) tambem geraria as mesmas estimates dos parametros.Em outras palavras, os tres comandos a seguir 
geram estimativas identicas dos parametros e das variancias dos termos de erro: 

Modelo Multimvel com Estima^ao por Maxima Verossimilhan 9 a: 
xtmixed desempenho horas || escola: , var nolog mle 

em que o termo mle significa maximum likelihood estimation. 

Modelo para Dados em Painel com Estima 9 ao por Maxima Verossimilhan 9 a: 
xtset escola estudante 
xtreg desempenho horas, mle 

Modelo Linear Generalizado Multimvel: 

gllamm desempenho horas, i(escola) adapt 

em que a op£ao adapt faz com que seja utilizado o processo de quadratura adaptativa em vez do processo 
padrao de quadratura ordinaria de Gauss-Hermite. 

E importante mencionar que os modelos lineares generalizados multimvel ( GLLAMM) sao analogos aos mo¬ 
delos lineares generalizados ( GLM) estudados nos Capitulos 12,13 e 14, ou seja, tambem sao bastante uteis para 
a elabora^ao de modelagens em que a variavel dependente apresenta-se de maneira categorica ou com dados 
de contagem, e existe uma estrutura aninhada de dados. No apendice deste capitulo, apresentaremos exemplos 
de modelos hierarquicos nao lineares dos tipos logistico, Poisson e binomial negativo. Para um aprofundamento 
do tema, recomendamos tambem o estudo de Rabe-Hesketh, Skrondal e Pickles (2002) e de Rabe-Hesketh e 
Skrondal (2012a, 2012b). 

Voltando ao nosso modelo com interceptos aleatorios ( outputs da Figura 16.11), podemos arquivar (coman- 
do estimates store) as estimates obtidas para futura compara 9 ao com as que serao geradas na estima^ao de 
um modelo com interceptos e inclina^oes aleatorias. Alem disso, podemos tambem obter, por meio do comando 
predict, reffects, os valores esperados dos efeitos aleatorios u 0j , conhecidos por BLUPS (best linear unbia¬ 
sed predictions), ja que o comando xtmixed nao os apresenta diretamente. Para tanto, podemos digitar a seguinte 
sequencia de comandos: 

quietly xtmixed desempenho horas || escola: , var nolog reml 
estimates store interceptoaleat 
predict uO, reffects 
desc uO 

by estudante, sort: generate tolist = (_n==l) 

list estudante uO if estudante <= 10 | estudante > 1990 & tolist 

A Figura 16.12 apresenta os valores dos termos de intercepto aleatorio u 0 j para os primeiros e ultimos 10 es- 
tudantes da base de dados. Podemos verificar que estes termos de erro sao invariantes para estudantes da mesma 
escola, porem variam entre escolas, o que caracteriza a existencia de um intercepto para cada escola. 

A fim de propiciar melhor visualiza^ao dos interceptos aleatorios por escola, podemos gerar um grafico 
(Figura 16.13) digitando o seguinte comando: 

graph hbar (mean) uO, over(escola) ytitie("Interceptos Aleatorios por 
Escola") 
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. quietly xtmixed desempenho horas || escola: , var nolog reml 
. estimates store interceptoaleat 
. predict uO, reffects 
. desc uO 

storage display value 

variable name type format label variable label 


uO float %9.0g BLUP r.e. for escola: _cons 

. by estudante, sort: generate tolist = (_n==l) 

. list estudante uO if estudante <= 10 | estudante > 1990 & tolist 


| estuda~e 

uO | 


1 

estuda~e 

-r 

uO | 

i 

1. | 

1 

-2.5026 | 

1991. 

1 

1991 

-2.238187 | 

2. I 

2 

-2.5026 | 

1992. 

1 

1992 

-2.238187 | 

3. I 

3 

-2.5026 | 

1993. 

1 

1993 

-2.238187 | 

4. j 

4 

-2.5026 | 

1994. 

1 

1994 

-2.238187 | 

5. I 

5 

-2.5026 | 

1995. 

1 

1995 

-3.096321 | 

6. | 

6 

-2.5026 | 

1996. 

1 

1996 

-3.096321 | 

7. I 

7 

-2.5026 | 

1997. 

1 

1997 

-3.096321 | 

8. | 

8 

-2.5026 | 

1998. 

1 

1998 

-3.096321 | 

9. | 

9 

-2.5026 | 

1999. 

1 

1999 

-3.096321 | 

10. | 

10 

-2.5026 | 

2000. 

1 

4-- 

2000 

-3.096321 | 


Figura 16.12 Termos de Intercepto aleatorio u 0j . 



Como ainda realizaremos algumas estimates adicionais, a fim de chegarmos a um modelo mais comple- 
to e com a presen^a de variaveis explicativas de nivel 2, nao vamos, neste momento, apresentar os coman- 
dos para gerar os valores previstos do desempenho escolar por estudante. Esse procedimento sera realizado 
mais adiante. 

Elaborada a verifica^ao de que o desempenho escolar sofre influencia da quantidade de horas de estudo por 
semana, e de que ha diferen^as nos interceptos dos modelos entre escolas, vamos, neste momento, estudar se as 
inclina^oes tambem sao diferentes entre escolas. Embora os graficos das Figuras 16.10 e 16.13 permitam que vi- 
sualizemos, de fato, interceptos discrepantes entre escolas, o mesmo nao pode ser dito em rela^ao as inclina^oes 
dos 46 ajustes lineares. Entretanto, e nosso dever avaliar tal situa^ao do ponto de vista estatistico. Portanto, vamos 
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inserir efeitos aleatorios de inclina^ao no nosso modelo multimvel que, com a manuten^ao dos efeitos aleatorios 
de intercepto, passara a ter a seguinte expressao: 


Modelo com Interceptos e Inclinasoes Aleatorias: 


que resulta em: 


desempenho^ = Z? 0 y + b {j - .horas y + ry 

b 0 j =y 00 +u 0 j 

b[j =yiO+ u ij 

desempenhOy- = 7qq + }^o -horas y + Uq j + u { j • horas y + ry 


O comando para a estima^ao do modelo com interceptos e inclina^oes aleatorias no Stata, para os dados do 
nosso exemplo, e: 

xtmixed desempenho horas || escola: horas, var nolog reml 

Note que a variavel horas inserida apos o termo escola : (componente aleatorio do comando xtmixed) e 
decorrente do termo Uy.horasj presente na especifica^ao do modelo multimvel. Os resultados obtidos nesta esti- 
ma^ao estao na Figura 16.14. 


. xtmixed desempenho horas || escola: horas, var nolog reml 


Mixed-effects REML regression 


Number of obs 


= 

2000 

Group variable: escola 



Number of groups 

= 

46 




Obs per group: 

min 

= 

6 





avg 

= 

43.5 





max 

= 

67 




Wald chi2(1) 


- 

19709.41 

Log restricted-likelihood = 

-6372.1643 


Prob > chi2 


~ 

0.0000 

desempenho | Coef. 

Std. Err. 

z 

P>|z| [95% 

Conf. 

Interval] 

horas | 3.251924 

.0231635 

140.39 

0.000 3.206525 


3.297324 

__cons j .534468 

.7875314 

0.68 

0.497 -1.009065 


2.078001 


Random-effects Parameters | 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

escola: Independent | 

var(horas) j 
var (__cons) j 

8.37e-14 
19.1254 

8.99e-ll 
4.199523 

0 

12.4367 

29.41142 

var(Residual) | 

31.76378 

1.016389 

29.83287 

33.81966 

LR test vs. linear regression: 

chi2 (2) 

= 816.88 

Prob > chi2 

= 0.0000 


Note: LR test is conservative and provided only for reference. 


Figura 16.14 Outputs do modelo com interceptos e inclinagoes aleatorias. 

Podemos verificar que as estimates dos parametros e das variancias no modelo com interceptos e inclina^oes 
aleatorias sao praticamente identicas aos obtidos na estima^ao dos parametros do modelo apenas com intercep¬ 
tos aleatorios (Figura 16.11). Isso decorre do fato de que a estima^ao da variancia dos termos de inclina 9 ao 
aleatoria u Xj ser estatisticamente igual a zero (valor muito baixo e erro-padrao consideravelmente superior, com 
valores iguais a zero para os intervalos de confian^a). 

Embora esse fato seja nitido neste caso, o pesquisador tern a op<jao de elaborar o teste de razao de verossimi- 
lhan^a para comparar as estimates obtidas pelo modelo com interceptos aleatorios e pelo modelo com inter¬ 
ceptos e inclina^oes aleatorias. Para tanto, deve ser digitado o seguinte comando: 

estimates store inclinagaoaleat 

e, na sequencia, o comando que ira elaborar o teste: 

lrtest inclinagaoaleat interceptoaleat 

visto que o termo interceptoaleat refere-se a estima^ao ja realizada anteriormente. O resultado do teste e 
apresentado na Figura 16.15. 
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. lrtest inclinagaoaleat interceptoaleat 

Likelihood-ratio test LR chi2(l) = -0.00 

(Assumption: interceptoal~t nested in inclinagaoal~t) Prob > chi2 = 1.0000 

Note: The reported degrees of freedom assumes the null hypothesis is not on the 
boundary of the parameter space. If this is not true, then the reported test 
is conservative. 

Note: LR tests based on REML are valid only when the fixed-effects specification 
is identical for both models. 


Figura 16.15 Teste de razao de verossimllhan^a para comparar as estimates dos modelos 
com interceptos aleatorios e com interceptos e inclina^oes aleatorias. 


Sendo o mvel de significancia do teste igual a 1,000 (muito maior do que 0,05) em decorrencia do fato de 
que os logaritmos das duas fungoes de verossimilhan^a restrita sao identicos (LL r = -6.372,164), fazendo com 
que LR chi2 para um grau de liberdade seja igual a 0, e favorecido o modelo apenas com efeitos aleatorios no 
intercepto, comprovando que os termos de erro aleatorio Uy sao estatisticamente iguais a zero. E importante 
mencionar, conforme tambem explicita a nota na parte inferior da Figura 16.15, que este teste de razao de 
verossimilhan^a somente e valido quando for feita a compara^ao das estimates obtidas por ma¬ 
xima verossimilhan^a restrita (REML) de dois modelos com especificasao identica do componente 
de efeitos fixos. Como, no nosso caso, os dois modelos, que foram estimados por REML , apresentam a mesma 
especifica^ao Too + 7io-^ om5 y no componente de efeitos fixos, o teste e considerado valido * 3 . 

Apenas para fins didaticos, outro modo de analisar a significancia estatistica dos termos de erro do modelo 
multimvel e inserir o termo estmetric ao final do comando xtmixed, conforme segue: 

xtmixed desempenho horas || escola: horas, estmetric nolog reml 

Os outputs gerados sao apresentados na Figura 16.16. 


. xtmixed desempenho horas || escola: horas, estmetric nolog reml 

Mixed-effects REML regression Number of obs = 2000 

Group variable: escola Number of groups = 46 

Obs per group: min = 6 

avg = 43.5 

max = 67 


Log restricted- 

■likelihood = 

-6372.1643 


Wald chi2(1) 

Prob > chi2 = 

19709.41 

0.0000 

desempenho 

1 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

desempenho 

horas 

1 

1 

3.251924 

.0231635 

140.39 

0.000 

3.206525 

3.297324 

_cons 

1 

.534468 

.7875314 

0.68 

0.497 

-1.009065 

2.078001 

Ins i _ 3._3. 

_cons 

1 

1 

-15.05597 

537.5352 

-0.03 

0.978 

-1068.606 

1038.494 

lnsl_l_2 

_cons 

1 

1 

1.475509 

.1097892 

13.44 

0.000 

1.260326 

1.690691 

lnsig e 

cons 

1 

1 

1.729163 

.0159992 

108.08 

0.000 

1.697805 

1.760521 


Figura 16.16 Estimagao dos parametros do modelo com interceptos e inclinagoes aleatorias, com uso do termo estmetric. 


3 Se um pesquisador mais curioso desejar elaborar um teste de razao de verossimilhan^a para comparar as estimates dos modelos nulo 
e com interceptos aleatorios, cujas especifica<;6es dos componentes fixos sao obviamente diferentes, devera faze-lo estimando estes dois 
modelos por maxima verossimilhan 9 a (MLE), em vez de por maxima verossimilhan 9 a restrita {REML). Assim, devera digitar a seguinte 
sequencia de comandos: 

quietly xtmixed desempenho || escola: , var nolog mle 
estimates store nulomle 

quietly xtmixed desempenho horas || escola: , var nolog mle 
estimates store interceptoaleatmle 
lrtest nulomle interceptoaleatmle 

cujo resultado obtido favorece o modelo com efeitos aleatorios no intercepto em rela^ao ao modelo nulo. 
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As estimates dos parametros de efeitos fixos sao identicas as obtidas anteriormente, porem o termo estme- 
tric faz com que sejam apresentadas as estimates do logaritmo natural dos desvios-padrao dos termos de erro, 
em vez das variancias desses termos, com as respectivas estatisticas ^ e seus niveis de significancia, o que facilita a 
interpreta^ao da significancia estatistica de cada termo aleatorio. 

Para o termo r-, por exemplo, em vez de ser apresentada a estima^ao da sua variancia G 2 - 31,764 (Figura 
16.14), e apresentada a estima^ao do logaritmo natural do desvio-padrao de r-, de modo que: 

In (^31,764) = 1,729 

Neste sentido, podemos comprovar, portanto, que os termos de inclina^ao aleatoria Uy sao estatisticamente 
iguais a zero ao nivel de confian^a de, por exemplo, 95%, ja que Sig z = 0,978 > 0,05. 

Outra discussao pertinente neste momento diz respeito a estrutura da matriz de variancia-covariancia dos 
efeitos aleatorios u Q j e Uy. Como nao especificamos nenhuma estrutura de covariancia para estes termos de erro, 
o Stata pressupoe, por meio do comando xtmixed, que essa estrutura seja independente, ou seja, que cov (u Q j, Uy) 
= CT 01 = 0. Em outras palavras, com base na expressao (16.18) e nos outputs da Figura 16.14, temos que: 


G = var [u] = i 


*00 u 
0 t u 


19,125 


8,37x10“ 


Entretanto, podemos generalizar a estrutura da matriz G, permitindo que u 0j e Uy sejam correlacionados, ou 
seja, que cov(u 0j , Uy) = CT 01 ^ 0. Para tanto, basta que adicionemos o termo covariance (unstructured) ao co¬ 
mando xtmixed, de modo que: 

xtmixed desempenho horas || escola: horas, covariance(unstructured) 
var nolog reml 

Os novos outputs gerados sao apresentados na Figura 16.17. 


. xtmixed desempenho horas || escola: horas, covariance(unstructured) var nolog reml 


Mixed-effects REML regression 
Group variable: escola 


Log restricted-likelihood = -6372.1111 


Number of obs = 

Number of groups = 

Obs per group: min = 
avg = 


Wald chi2(1) 
Prob > chi2 


19620.62 

0.0000 


desempenho | 

-1— 

horas | 
cons j 


Std. Err. 


[95% Conf. Interval] 


3.251008 

.5615094 


.0232093 

.8100559 


140.07 

0.69 


3.205519 

-1.026171 


3.296498 

2.14919 


Random-effects Parameters | Estimate Std. Err. 

--I- 

escola: Unstructured | 

var(horas) | .0000759 .000075 

var(_cons) | 20.74997 4.425246 

cov(horas,_cons) j -.0396861 .019402 

--—- 4 ----—- 

var(Residual) | 31.75566 1.02383 


[95% Conf. Interval] 


.0000109 

13.66111 

-.0777133 


.0005268 

31.51731 

-.001659 


LR test vs. linear regression: 


chi2(3) = 816.99 Prob > chi2 = 0.0000 



Note: LR test is conservative and provided only for reference. | 


Figura 16.17 Estima$ao dos parametros do modelo com interceptos e inclinagoes aleatorias, 
com termos aleatorios u 0j e u y correlacionados. 

As novas estimates das variancias dos termos de erro geram a seguinte matriz de variancia-covariancia: 

UQj ( 7 qj 20,750 — 0,040 

var I u I = var = = 

L w lyJ L^Ol T 11J L-°> 040 7 , 59 x 10 -5 _ 

que tambem pode ser obtida por meio do seguinte comando: 


estat recovariance 


cujos outputs encontram-se na Figura 16.18. 















880 


Manual de Analise de Dados: Estatistica e Modelagem Multivariada com Excel®, SPSS® e Stata 


. estat recovariance 

Random-effects covariance matrix for level escola 

| horas _cons 

—-—-(--—- 

horas | .0000759 

_ _cons | -.0396861 20.74997 _ 

Figura 16.18 Matrlz de variancia-covariancia com termos aleatorios u 0j e u y correlacionados. 

Embora a estima^ao da covariancia entre u oy e Uy cov(u 0j -, Uy) = <7 01 = -0,040 ^ 0, um pesquisador mais curio- 
so verificara, por meio da inclusao do termo estmetric ao final do ultimo comando xtmixed digitado (sem o 
termo var), que esta covariancia nao e estatisticamente significante (na realidade, o output , nao apresentado aqui, 
mostrara a nao significance do arco tangente hiperbolico da correla^ao entre estes dois termos de erro). 

Outro mo do para verificar a nao significance da correla^ao entre os termos de erro e por meio de um novo 
teste de razao de verossimilhan^a, que compara as estimates do modelo com interceptos e inclina^oes aleatorias 
com termos de erro u 0 j e Uy independentes (Figura 16.14) com o mesmo modelo, porem com termos de erro 
correlacionados (Figura 16.17), ou seja, com matriz de variancia-covariancia unstructured. Para tanto, devemos di- 
gitar a seguinte sequence de comandos: 

estimates store inclinagaoaleatunstructured 

Irtest inclinagaoaleatunstructured inclinagaoaleat 

O resultado deste teste esta na Figura 16.19. 


. Irtest inclinagaoaleatunstructured inclina^aoaleat 




Likelihood-ratio test 

LR chi2(1) 

= 

0.11 

(Assumption: inclina?aoal~t nested in inclina^aoal^d) 

Prob > chi2 

= 

0.7442 

Note: LR tests based on REML are valid only when the 

fixed-effects 

specification 

is identical for both models. 



_ 


Figura 16.19 Teste de razao de verossimilhan<;a para comparar as estimates dos modelos com 
interceptos e inclina<;6es aleatorias com termos de erro u oj e u y independentes e correlacionados. 

A estatistica X 2 deste teste, com 1 grau de liberdade, tambem pode ser obtida por meio da seguinte expressao: 

X\ = [-2.LL r _ jnd - (-2.LL r _ unstruc )] = {-2.(-6.372,164) - [-2.(-6.372,111)]} - 0,11 

Ou seja, temos que Sig. x\ “ 0,744 > 0,05. Portanto, podemos afirmar que a estrutura da matriz de variancia- 
-covariancia entre u 0 j e Uy pode ser considerada independente neste exemplo. 

Porem, mais do que isso, verificamos que a variancia estimada de Uy e estatisticamente igual a zero, fazendo 
com que o modelo com interceptos aleatorios seja mais adequado do que o modelo com interceptos e inclina- 
£oes aleatorias para os nossos dados. 

Vamos neste momento, portanto, inserir as variaveis texp e priv (variaveis explicativas do nivel 2 - escola) no 
nosso modelo com interceptos aleatorios, de modo que a nova especifica^ao do modelo hierarquico fique con- 
forme segue: 

Modelo Completo com Interceptos Aleatorios: 

desempenhoy =607 +b\j horas y + ry 
b 0j = 700 + 701 • tex Pj +702 'P riv j j 

hj=y\o+yu' tex Pj + yi2-P riv j 
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que resulta na seguinte expressao: 

desempenhofj = Vqo+Yio- koras g + y 0 1 * texpj +y 02 .privj 

+ 7l 1. texpj .horns y +7^ -P r ^ v j -horas y +Uqj + ry 

Desta forma, precisamos, inicialmente, gerar duas novas variaveis, que correspondem a multiplica^ao de texp 
por horns e de priv por horns. Os comandos a seguir geram estas duas variaveis ( texphoras e privhoras): 

gen texphoras = texp*horas 

gen privhoras = priv*horas 

Na sequencia, podemos estimar o nosso modelo completo com interceptos aleatorios, digitando o seguinte 
comando: 

xtmixed desempenho horas texp priv texphoras privhoras || escola: , 
var nolog reml 

Os outputs sao apresentados na Figura 16.20. 


I . xtmixed desempenho horas texp priv texphoras privhoras || escola: , 

var nolog reml 

Mixed-effects REML regression 

Number 

of obs = 

2000 

Group variable: escola 


Number 

of groups = 

46 



Obs per group: min = 

6 




avg = 

43.5 




max = 

67 



Wald chi2(5) 

19953.89 j 

Log restricted-likelihood = 

-6363.6519 

Prob > 

chi2 

0.0000 

desempenho | Coef. 

Std. Err. z 

P>|z| 

[95% Conf. 

Interval] 

horas | 3.284991 

.0332137 98.90 

0.000 

3.219893 

3.350088 

texp | .9073246 

.2316582 3.92 

0.000 

.4532829 

1.361366 

priv | -6.067564 

2.921377 -2.08 

0.038 

-11.79336 

-.3417699 

texphoras | -.0019725 

.0078371 -0.25 

0.801 

-.0173328 

.0133879 ! 

privhoras | -.0579369 

.1002329 -0.58 

0.563 

-.2543899 

.1385161 

_cons | -2.792594 

.9512356 -2.94 

0.003 

-4.656982 

-.928207 

... .. .. ..... ... ... ..... _ 

Random-effects Parameters 

| Estimate Std. Err. 

[95% Conf. 

Interval] 

escola: Identity 

1 




var(_cons) 

| 11.0621 2 

.56052 

7.027675 

17.41258 

var(Residual) 

| 31.73555 1. 

015985 

29.80544 

33.79064 

| LR test vs. linear regression: chibar2(01) = 

466.96 Prob >= chibar2 = 0.0000 1 


Figura 16.20 Outputs do modelo completo com interceptos aleatorios. 


Ao analisarmos os parametros estimados do componente de efeitos fixos, podemos verificar que aqueles cor- 
respondentes as variaveis texphoras e privhoras nao sao estatisticamente diferentes de zero, ao mvel de significance 
de 5%. Como nao ha procedimento Stepwise correspondente ao comando xtmixed no Stata, vamos manualmen- 
te excluir a variavel texphoras (ou seja, a variavel texp da expressao da inclina^ao b tj ), por ser aquela cujo parametro 
estimado apresentou maior Sig. z. O novo modelo, portanto, apresenta a seguinte expressao: 


desempenhoy — b^j + .horas y + ry 

b 0 j = 7oo + 7o 1 • tex Pj +702 -P riv j +u 0 j 
hj=y 10 +Yn-P riv j 
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que resulta em: 


desempenhoy = 7oo + y\o-horasy + yo p texpy +y§2 P r i v j 
+ y\ i .privy .horasy + Uqj + ry 


cuja estima^ao pode ser obtida por meio da digita^ao do seguinte comando: 

xtmixed desempenho horas texp priv privhoras | | escola: , var nolog reml 

Os novos outputs sao apresentados na Figura 16.21. 


I . xtmixed desempenho horas texp priv privhoras || escola: , var nolog reml 1 

1 Mixed-effects REML regression 

Number 

of obs = 

2000 

Group variable: escola 


Number 

of groups = 

46 



Obs per group: min = 

6 




avg = 

43.5 




max = 

67 



Wald chi2(4) 

19963.20 

Log restricted-likelihood = 

-6359.7535 

Prob > 

chi 2 

0.0000 

desempenho | Coef. 

Std. Err. z 

P>|z| 

[95% Conf. 

Interval] 

horas | 3.281046 

.0292757 112.07 

0.000 

3.223666 

3.338425 

1 texp | .8662029 

.1641964 5.28 

0.000 

.5443839 

1.188022 

priv | -5.610535 

2.288086 -2.45 

0.014 

-10.0951 

-1.12597 

privhoras | -.0801207 

.0477218 -1.68 

0.093 

-.1736538 

.0134124 

_cons | -2.71035 

.8931607 -3.03 

0.002 

-4.460913 

-.9597874 


Random-effects Parameters 

| Estimate Std. Err. 

[95% Conf. 

Interval] 

escola: Identity 

1 




var (_cons) 

| 11.05778 2 

559528 

7.024925 

17.40582 

var(Residual) 

| 31.7206 1 

015254 

29.79187 

33.7742 

| LR test vs. linear regression: chibar2(01) = 

467.10 Prob >= chibar2 

= 0.0000 


Figura 16.21 Outputs do modelo final completo com interceptos aleatorios sem a variavel texphoros. 


Note que, embora o parametro estimado y n referente a variavel privhoras nao seja estatisticamente significante 
ao nivel de significancia de 5%, oeao nivel de significancia de 10%. Apenas para fins didaticos, consideraremos 
este maior nivel de significancia neste momento, a fim de darmos sequencia a analise com a presen^a de ao me- 
nos uma variavel de nivel 2 (priv ) na expressao da inclina^ao by, ainda que sem termos aleatorios nesta inclina- 
$ao. Portanto, a expressao do nosso modelo final estimado com interceptos aleatorios e variaveis explicativas dos 
niveis 1 e 2 e: 


desempenhoy = -2,710 + 3,281 .horasy + 0,866. texpy -5,61 O.privy 
-0,080 .privy .horasy +u$j +ry 


Um pesquisador mais investigativo poderia questionar o fato de o parametro estimado da variavel priv apre- 
sentar sinal negativo. Lembramos que esse fato somente ocorre na presen^a das demais variaveis explicativas, pois 
a correla^ao entre desempenho e priv e positiva e estatisticamente significante, ao nivel de significancia de 5%, o 
que comprova que estudantes provenientes de escolas de natureza privada acabam por apresentar, em media, de- 
sempenhos escolares superiores aos dos estudantes provenientes de escolas publicas. 

Na sequencia, podemos obter os valores esperados BLUPS (best linear unbiased predictions) dos efeitos aleatorios 
u 0 j do nosso modelo final, digitando: 

predict uOfinal, reffects 
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que gera no banco de dados uma nova variavel, denominada uOfinal. Alem disso, tambem podemos obter os va- 
lores esperados do desempenho escolar de cada estudante, por meio da digita^ao do seguinte comando: 

predict yhat, fitted 

que define a variavel yhat, que tambem pode ser obtida pelo comando: 

gen yhat = -2.71035 + 3.281046*horas + .8662029*texp - 5.610535*priv - 
.0801207*privhoras + uOfinal 

O comando a seguir faz com que seja gerado um grafico (Figura 16.22) com os valores previstos do desempe¬ 
nho escolar de cada estudante em fun^ao da quantidade semanal de horas de estudo para as 46 escolas em analise 
e, por meio do qual, podemos visualizar que os interceptos sao distintos (efeitos aleatorios), porem sem que haja 
discrepancia nas inclina^oes. 

graph twoway connected yhat horas, connect(L) 



Figura 16.22 Valores previstos do desempenho escolar em fun^ao da variavel horas 
para o modelo final completo com interceptos aleatorios. 


Por fim, a Figura 16.23 apresenta os valores dos interceptos e das inclina^oes dos ajustes lineares dos valores 
previstos do desempenho escolar medio para cada uma das 46 escolas, em que e possivel comprovar a existencia 
de efeitos aleatorios nos interceptos e apenas de efeitos fixos nas inclina^oes. Essa figura pode ser obtida com a 
digita^ao da seguinte sequencia de comandos: 

generate interceptfinal = _Jb[_cons] + uOfinal 

generate slopefinal = _b[horas] + _b[texp] + _b[priv] + _b[privhoras] 

by escola, sort: generate grupo = (_n==l) 

list escola interceptfinal slopefinal if grupo == 1 

Portanto, podemos concluir que existem diferen^as no comportamento do desempenho escolar entre estu- 
dantes provenientes de mesmas escolas e de escolas distintas, e essas diferen^as ocorrem, respectivamente, em fun- 
$ao da quantidade semanal de horas de estudo de cada estudante, da natureza (publica ou privada) e do tempo 
medio de experiencia docente dos professores de cada escola. 
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. generate interceptfinal = __b[_cons] + uOfinal 

. generate slopefinal = _b[horas] + _b[texp] + _b[priv] + _b[privhoras] 
. by escola, sort: generate grupo = (__n==l) 

. list escola interceptfinal slopefinal if grupo == 1 


+- 




-+ 

+- 



-+ 


\ 

escola 

intercept 

slope 

1 

1 

escola 

intercept 

slope 

1 

1. 1 

1 

-4.16957 

-1.543407 

1 

1098. | 

26 

-5.595652 

-1.543407 

1 

48. | 

2 

-1.894821 

-1.543407 

1 

1155. | 

27 

-2.556698 

-1.543407 

1 

73. | 

3 

-3.666173 

-1.543407 

1 

1193. | 

28 

-4.038416 

-1.543407 

1 

121. | 

4 

2.755683 

-1.543407 

1 

1250. | 

29 

-3.504889 

-1.543407 

1 

141. | 

5 

-5.345044 

-1.543407 

1 

1292. | 

30 

-1.804854 

-1.543407 

1 

189. | 

6 

-.3607166 

-1.543407 

1 

1330. | 

31 

-3.479754 

-1.543407 

1 

219. | 

7 

-1.135043 

-1.543407 

1 

1382. | 

32 

-1.441315 

-1.543407 

1 

247. | 

8 

1.99781 

-1.543407 

1 

1427. | 

33 

3.12553 

-1.543407 

1 

282. | 

9 

-1.299724 

-1.543407 

1 

1474. | 

34 

-1.68581 

-1.543407 

1 

326. | 

10 

-4.221467 

-1.543407 

1 

1499. | 

35 

-1.887107 

-1.543407 

1 

359. | 

11 

1.197181 

-1.543407 

1 

1554. | 

36 

-2.94762 

-1.543407 

1 

416. | 

12 

-8.295818 

-1.543407 

1 

1596. | 

37 

-4.148458 

-1.543407 

1 

478. | 

13 

-3.741182 

-1.543407 

1 

1639. | 

38 

3.211197 

-1.543407 

1 

531. | 

14 

-3.841384 

-1.543407 

1 

1687. | 

39 

-2.189148 

-1.543407 

1 

558. | 

15 

-1.455961 

-1.543407 

1 

1733. | 

40 

-.7969732 

-1.543407 

1 

611. | 

16 

-2.030933 

-1.543407 

1 

1786. | 

41 

-13.63122 

-1.543407 

1 

639. | 

17 

-2.306067 

-1.543407 

1 

1845. I 

42 

3.058528 

-1.543407 

1 

668. | 

18 

-3.19111 

-1.543407 

1 

1866. | 

43 

-2.950832 

-1.543407 

1 

707. | 

19 

-1.866918 

-1.543407 

1 

1905. | 

44 

-2.277107 

-1.543407 

1 

754. | 

20 

-1.314391 

-1.543407 

1 

1957. | 

45 

-4.016261 

-1.543407 

1 

814. | 

21 

-7.131632 

-1.543407 

1 

1995. | 

46 

-4.640889 

-1.543407 

1 

875. | 

22 

-8.121008 

-1.543407 

1 

+ - 




■+ 

942. | 

23 

-2.087642 

-1.543407 

1 






989. | 

24 

-6.462057 

-1.543407 

1 






1046. | 

25 

-2.490379 

-1.543407 

1 







Figura 16.23 Efeitos aleatorios nos interceptos e efeitos fixos nas inclinagoes 
(em destaque, a identificagao da primeira observa<;ao em cada escola). 


Op tamos por elaborar a estrategica de analise multimvel proposta por Raudenbush e Bryk (2002) e Snijders 
e Bosker (2011), ou seja, primeiramente estudamos a decomposi^ao de variancia a partir da defmi^ao 
de um modelo nulo (modelo nao condicional) para, na sequencia, serem construidos um modelo com 
interceptos aleatorios e um modelo com interceptos e inclina 9 oes aleatorias. Por fim, a partir da de- 
fini^ao do carater de aleatoriedade dos termos de erro, construimos o modelo completo com a inclusao 
das variaveis de nivel 2 na analise. Esse procedimento e conhecido por multilevel step-up strategy . 

Em seguida, iremos elaborar uma modelagem hierarquica linear de tres niveis, em que sera caracterizado o 
aninhamento dos dados pela presen^a de medidas repetidas, ou seja, pela existencia de evolu^ao temporal no 
comportamento da variavel dependente. 

16.4.2. Estimagao de um modelo hierarquico linear de tres niveis com medidas repetidas 
no software Stata 

Apresentaremos um exemplo que segue a mesma logica da se^ao anterior, porem, neste momento, com dados 
que variam ao longo do tempo, entre individuos e entre grupos a que pertencem esses individuos, caracterizando 
uma estrutura aninhada com medidas repetidas. 

Imagine que o nosso versado e matraqueado professor tenha agora o interesse em ampliar sua pesquisa, mo- 
nitorando o desempenho escolar dos estudantes por determinado periodo, a fim de investigar se existe variabili- 
dade nesse desempenho ao longo do tempo entre estudantes provenientes de uma mesma escola e entre aqueles 
provenientes de escolas distintas e, em caso afirmativo, se existem caracteristicas dos estudantes e das escolas que 
explicam essa variabilidade. 

Neste sentido, 15 escolas se dispuseram a fornecer os dados referentes ao desempenho escolar (nota de 0 a 
100) de seus alunos nos ultimos quatro anos, totalizando 610 estudantes. Alem disso, o professor tambem in- 
cluiu na base o sexo de cada um deles, a fim de verificar se existem diferen^as decorrentes dessa variavel no 
desempenho escolar. A variavel referente ao tempo medio de experiencia docente em cada uma das esco¬ 
las permanece no estudo. Parte do banco de dados elaborado encontra-se na Tabela 16.4, porem a base de 
dados completa pode ser acessada por meio dos arquivos DesempenhoTempoAlunoEscola.xls (Excel) e 
DesempenhoTempoAlunoEscola.dta (Stata). 
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Tabela 16.4 Exemplo: desempenho escolar ao longo do tempo (nivel 1 - medida repetida) 
e caracteristicas de estudantes (nivel 2) e de escolas (nivel 3). 


Estudante j 
(Nivel 2) 

Escola k 
(Nivel 3) 

Desempenho escolar 

Ano t 
(Nivel 1) 

Sexo (X jk ) 

Tempo medio, em anos, de 
experiencia dos docentes (W k ) 

1 

1 

35,4 

1 

masculino 

2 

1 

1 

44,4 

2 

masculino 

2 

1 

1 

46,4 

3 

masculino 

2 

1 

1 

52,4 

4 

masculino 

2 


121 

4 

66,4 

1 

feminino 

9 

121 

4 

66,4 

2 

feminino 

9 

121 

4 

74,4 

3 

feminino 

9 

121 

4 

79,4 

4 

feminino 

9 



15 

87,6 

1 

feminino 

9 

610 

15 

92,6 

2 

feminino 

9 

610 

15 

94,6 

3 

feminino 

9 

610 

15 

100,0 

4 

feminino 

9 


Apos abrirmos o arquivo DesempenhoTempoAlunoEscola.dta, podemos digitar o comando desc, que 
permite que analisemos as caracteristicas do banco de dados, como a quantidade de observances, a quantidade de 
variaveis e a descri^ao de cada uma delas. A Figura 16.24 apresenta este output do Stata. 


. desc 





obs: 

2,440 




vars: 

6 




size: 

56,120 





storage 

display 

value 


variable name 

type 

format 

label 

variable label 

estudante 

int 

%8.0g 


estudante j (nivel 2) 

escola 

byte 

%8.0g 


escola k (nivel 3) 

desempenho 

float 

%9.0g 


desempenho escolar 

ano 

float 

%9.0g 


periodo de monitoramento (ano 1 a 4) 

sexo 

float 

%9.0g 

sexo 

sexo 

texp 

float 

%9.0g 


tempo medio de experiencia docente dos 
professores da escola (anos) 

| Sorted by: J 


Figura 16.24 Descrigao do banco de dados DesempenhoTempoAlunoEscola.dta. 


Seguindo a logica proposta na se^ao anterior, vamos inicialmente analisar a quantidade de estudantes moni- 
torados pelo professor em cada periodo de tempo ( ano ), por meio do seguinte comando: 

tabulate ano, subpop(estudante) 

Os outputs sao apresentados na Figura 16.25 e, por meio desses, podemos verificar que estamos diante de um 
painel balanceado de dados, ja que cada um dos 610 estudantes e monitorado nos quatro perfodos de tempo. 


. tabulate ano, subpop(estudante) 


periodo de | 
monitoramen j 
to (ano 1 a j 

4) j Freq. Percent Cum. 

- 4 -—-—-—- 

1 | 610 25.00 25.00 

2 | 610 25.00 50.00 

3 | 610 25.00 75.00 

4 | 610 25.00 100.00 

- 1 -—- 

Total | 2,440 100.00 


Figura 16.25 Quantidade de estudantes monitorados em cada periodo. 
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O grafico da Figura 16.26, obtido por meio da digita^ao do seguinte comando, permite que seja analisada a 
evolu^ao temporal do desempenho escolar dos 50 primeiros estudantes da amostra: 

graph twoway connected desempenho ano if estudante <= 50, connect(L) 



Figura 16.26 Evolu<;ao temporal do desempenho escolar dos 50 primeiros estudantes da amostra. 

Este grafico ja permite que visualizemos que as evolu^oes temporais dos desempenhos escolares apresentam 
interceptos e inclina^oes distintas entre estudantes, o que justifica a ado^ao da modelagem multimvel e oferece 
subsidios a inclusao de efeitos aleatorios de intercepto e de inclinafao no mvel 2 dos modelos que 
serao estimados. 

Alem disso, os desempenhos medios dos estudantes nos quatro periodos podem ser analisados nas Figuras 
16.27 e 16.28, obtidas a partir dos comandos a seguir. Por meio delas, e possivel verificar que existe um compor- 
tamento crescente, aproximadamente linear, do desempenho escolar dos estudantes ao longo do tempo, e essa e 
a razao para que tambem seja inserida a variavel ano , com especifica 9 ao linear, no mvel 1 da mo¬ 
delagem, conforme veremos adiante. 

bysort ano: egen desempenho_medio = mean (desempenho) 

tabstat desempenho^medio, by(ano) 

graph twoway scatter desempenho ano || connected desempenho_medio ano, 
connect(L) || , ytitie(desempenho escolar) 


. bysort ano: egen desempenho_medio = mean(desempenho) 

. tabstat desempenho_medio, by(ano) 

Summary for variables: desempenho_medio 

by categories of: ano (periodo de monitoramento (ano 1 a 4)) 


ano | mean 

- + - 

1 | 61.65492 

2 | 66.36607 

3 | 70.61115 

4 | 74.73328 

-f- 

Total | 68.34135 


Figura 16.27 Desempenho escolar medio dos estudantes em cada periodo. 
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Figura 16.28 Evolu^ao do desempenho escolar medio dos estudantes em cada periodo. 

A fim de justificar mais fortemente as razoes para que seja estimado um modelo hierarquico de tres niveis, va- 
mos elaborar um grafico (Figura 16.29) que apresenta as evolugoes temporais dos desempenhos escolares medios. 
Para tanto, podemos digitar a seguinte sequencia de comandos: 

statsby intercept=_b [_cons] slope=_b[ano]by(escola) saving (ols, 
replace): reg desempenho ano 
sort escola 

merge escola using ols 
drop _merge 

gen yhat_ols= intercept + slope*ano 
sort escola ano 

separate desempenho, by(escola) 
separate yhat_ols, by(escola) 

graph twoway connected yhat_olsl-yhat__olsl5 ano || lfit desempenho 
ano, clwidth(thick) clcolor(black) legend(off) ytitle(desempenho escolar) 



Figura 16.29 Evolugao temporal do desempenho escolar medio dos estudantes de cada escola (ajuste linear por MQO). 
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Este grafico apresenta o ajuste linear por MQO, para cada escola, do comportamento do desempenho escolar 
ao longo do tempo e tambem oferece subsidios a inclusao de efeitos aleatorios de intercepto e de in- 
clina^ao no nivel 3 dos modelos que serao estimados ,ja que as evolu^oes temporais dos desempenhos escolares 
apresentam interceptos e inclina^oes distintas tambem entre as escolas. Note que a ultima sequencia de coman- 
dos gera um novo arquivo em Stata (ols.dta), em que podem ser analisadas as diferen^as no comportamento do 
desempenho escolar, em termos de interceptos e inclina^oes temporais, entre as escolas. 

Caracterizado o aninhamento temporal dos estudantes pertencentes a diferentes escolas nos dados com me- 
didas repetidas do nosso exemplo, vamos inicialmente estimar um modelo nulo (modelo nao condicional), que 
permite que verifiquemos se existe variabilidade no desempenho escolar entre estudantes provenientes de uma 
mesma escola e entre aqueles provenientes de escolas distintas. Nenhuma variavel explicativa sera inserida na mo¬ 
delagem, que considera apenas a existencia de um intercepto e dos termos de erro u 00h r 0jk e e tjh com variancias 
respectivamente iguais a T m000 , T,ooo e (f.O modelo a ser estimado apresenta a seguinte expressao: 

Modelo Nulo: 

desempenho tjk = 7r 0jk + e tjk 
K 0jk = b 00k +r 0jk 
b 00k - 7000 +u 0()k 

que resulta em: 


desempenho tjk =y 00 o +“00/t + r 0jk +e tjk 
O comando para a estima^ao deste modelo nulo no Stata e: 

xtmixed desempenho || escola: || estudante: , var nolog reml 

que, conforme podemos observar, apresenta agora dois componentes de efeitos aleatorios, sendo um corres- 
pondente ao nivel 3 (escola) e outro ao nivel 2 (estudante). E importante frisar que a ordem de inser£ao dos 
componentes de efeitos aleatorios no comando xtmixed e decrescente na existencia de mais de dois 
niveis, ou seja, devemos iniciar com o nivel superior de aninhamento dos dados e seguir ate o nivel inferior (ni- 
vel 2). Os outputs obtidos sao apresentados na Figura 16.30. 


. xtmixed desempenho || escola: || estudante: , var nolog reml 

Mixed-effects REML regression Number of obs = 2440 


1 

No. of 

Observations per Group 

Group Variable | 

Groups 

Minimum 

Average 

Maximum 

escola | 

15 

80 

162.7 

248 

estudante | 

610 

4 

4.0 

4 


Wald chi2(0) 

Log restricted-likelihood = -9092.1387 Prob > chi2 


desempenho | Coef. 

Std. 

Err. 

z P>|z| 

[95% Conf. 

Interval] 

_cons | 68.71395 

3.553167 19. 

.34 0.000 

61.74987 

75.67803 


Random-effects Parameters 

1 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

escola: Identity 

var(_cons) 

1 

1 

180.1941 

71.60437 

82.69809 

392.6319 

estudante: Identity 

var(_cons) 

1 

1 

325.7989 

19.49574 

289.7436 

366.3408 

var(Residual) 

1 

41.6494 

1.376887 

39.03632 

44.43739 


LR test vs. linear regression: chi2(2) = 4036.13 Prob > chi2 = 0.0000 


Note: LR test is conservative and provided only for reference. 


Figura 16.30 Outputs do modelo nulo no Stata. 
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Na parte superior da Figura 16.30, podemos inicialmente comprovar que estamos diante de um painel balan- 
ceado, ja que, para cada estudante, temos quantidades minima e maxima de periodos de monitoramento iguais a 
quatro, com media tambem igual a quatro. 

Em rela^ao ao componente de efeitos fixos, podemos verificar que a estima^ao do parametro % 00 e igual a 
68,714, que corresponde a media dos desempenhos escolares anuais esperados dos estudantes (reta horizontal es- 
timada no modelo nulo, ou intercepto geral). 

Ja na parte inferior dos outputs , sao apresentadas as estimates das variancias dos termos de erro T w000 = 
180,194 (no Stata, var (_cons) para. escola), = 325,799 (no Stata, var (_cons) para estudante) e (f = 
41,649 (no Stata, var (Residual)). 

Logo, podemos definir duas correlates intraclasse, dada a existencia de duas proporgoes de variancia, em que 
a primeira delas refere-se a correlagao entre os dados da variavel desempenho em t e em f ( t ^ f) de determinado 
estudante j pertencente a determinada escola k (correla^ao intraclasse de nivel 2), e a outra refere-se a correla^ao 
entre os dados da variavel desempenho em t e em f (t^ f) de diferentes estudantes j e f (j ^ f) pertencentes a de¬ 
terminada escola k (correla^ao intraclasse de nivel 3). Neste sentido, temos que: 


• Correla^ao intraclasse de nivel 2: 


r h°estudante\escola corr {Yfjk > ^ t'jk ) 


Tu000+' c r000 __ 180,1944-325,799 

t.OT + t.ooo + o 2 180,194 + 325,799 + 41,649 


• Correlate) intraclasse de nivel 3: 


r h°escola ~ corr tjk > ^ t'j'k ) — 


* 1/000 


T «000 +T r000 +(72 


_ 180,194 _ 

180,194 + 325,799 + 41,649 


= 0,329 


A partir da versao 13 do Stata, e possivel obter diretamente essas correlates intraclasse, digitando-se o co- 
mando estat icc logo apos a estima^ao do modelo correspondente. 

Neste sentido, a correla^ao entre os desempenhos escolares anuais, para uma mesma escola, e igual a 32,9% 
(■ rho escola ) e a correla^ao entre os desempenhos escolares anuais, para um mesmo estudante de determinada es¬ 
cola, e igual a 92,4% (rho estudante \ escola ). Para o modelo sem variaveis explicativas, portanto, enquanto o desempe¬ 
nho escolar anual e levemente correlacionado entre escolas, o mesmo passa a ser fortemente correlacionado 
quando o calculo e feito para o mesmo estudante proveniente de determinada escola. Nesse ultimo caso, es- 
timamos que os efeitos aleatorios de estudantes e escolas compoem aproximadamente 92% da variancia total 
dos residuos! 

Em rela^ao a significancia estatistica dessas variancias, o fato de os valores estimados de T w000 , e (f serem 
consideravelmente superiores aos respectivos erros-padrao indica haver varia^ao significativa no desempenho 
escolar anual entre estudantes e entre escolas. Mais especificamente, podemos verificar que todas essas relates 
sao maiores do que 1,96, sendo esse o valor critico da distribui^ao normal padrao que resulta em um nivel de 
significancia de 5%. 

Conforme discutido na se^ao 16.4.1, essa informa^ao e fundamental para embasar a escolha da modelagem 
multinivel neste exemplo, em vez de uma simples e tradicional modelagem de regressao por MQO. Na parte in¬ 
ferior da Figura 16.30 podemos comprovar esse fato, analisando o resultado do teste de razao de verossimilhan^a 
(lr test). Como Sig. X 2 ~ 0,000, podemos rejeitar a hipotese nula de que os interceptos aleatorios sejam iguais 
a zero (H 0 : u 00k = r 0 j k = 0), o que faz com que a estima^ao de um modelo tradicional de regressao linear seja des- 
cartada para os dados com medidas repetidas do nosso exemplo. 

Embora pesquisadores frequentemente desprezem a estima^ao de modelos nulos, a analise dos 
resultados pode auxiliar na rejei^ao ou nao de hipoteses de pesquisa e ate mesmo propiciar ajus- 
tes em rela^ao aos constructos propostos. Para os dados do nosso exemplo, os resultados do modelo nulo 
permitem que afirmemos que ha variabilidade significativa no desempenho escolar ao longo dos quatro anos da 
analise, que ha variabilidade significativa no desempenho escolar, ao longo do tempo, entre estudantes de uma 
mesma escola, e que ha variabilidade significativa no desempenho escolar, ao longo do tempo, entre estudantes 
provenientes de escolas distintas. Esses achados podem, por si so, rejeitar ou comprovar hipoteses de pesquisa e 
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ser utilizados para a estrutura^ao ser determinado trabalho, sem que, dependendo dos objetivos do pesquisador, 
seja necessaria a elabora^ao de modelagens adicionais. 

Como o nosso objetivo, alem do exposto, e verificar se existem caracteristicas dos estudantes e das escolas que 
explicam a variabilidade do desempenho escolar entre estudantes de urria mesma escola e entre aqueles prove- 
nientes de escolas distintas, seguiremos com os proximos passos da modelagem, respeitando a multilevel step-up 
strategy. 

Neste sentido, assim como ja preliminarmente visualizado por meio dos graficos das Figuras 16.28 e 16.29, 
vamos inserir a variavel de nivel 1, ano, na analise, com o intuito de investigar se a variavel temporal apresenta re- 
la^ao com o comportamento do desempenho escolar dos estudantes e, mais do que isso, se o desempenho escolar 
apresenta comportamento linear ao longo do tempo. 

Modelo de Tendencia Linear com Interceptos Aleatorios: 

desempenho tjk = n 0jk + n Xjk .ano jk + e tjk 

n 0jk = b 00k +r 0jk 

n ljk ~h()k 

hm ~Vooo +u ook 

b iok=i’m 


que resulta na seguinte expressao: 


desempenho tjk =y 00 0 +y\00- ano jk + u 00k + r 0jk + e tjk 


O comando para a estima^ao do modelo de tendencia linear com interceptos aleatorios no Stata, para os da¬ 
dos do nosso exemplo, e: 

xtmixed desempenho ano || escola: || estudante: , var nolog reml 

cujos outputs sao apresentados na Figura 16.31. 


. xtmixed desempenho ano || escola: || estudante: , var nolog reml 
Mixed-effects REML regression Number of obs 


1 

No. of 

Observations per Group 

Group Variable | 

Groups 

Minimum 

Average 

Maximum 

escola 1 

15 

80 

162.7 

248 

estudante j 

610 

4 

4.0 

4 


Wald chi2(1) 

Log restricted-likelihood = -7801.4202 Prob > chi2 


2440 


5683.02 

0.0000 


desempenho | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

ano | 
cons j 

4.348016 

57.84391 

.0576768 

3.556109 

75.39 

16.27 

0.000 

0.000 

4.234972 

50.87407 

4.461061 

64.81376 


Random-effects Parameters | 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

escola: Identity I 

var (_cons) | 

180.1959 

71.60532 

82.69876 

392.6368 

estudante: Identity I 

var (__cons) \ 

333.6753 

19.49293 

297.5759 

374.1539 

var(Residual) | 

10.14618 

.3355141 

9.509446 

10.82556 

LR test vs. linear regression: 

chi2(2) 

= 6505.83 

Prob > chi2 

= 0.0000 


Note: LR test is conservative and provided only for reference. 


Figura 16.31 Outputs do modelo de tendencia linear com interceptos aleatorios. 
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Inicialmente, podemos verificar que a media de crescimento anual do desempenho escolar e estatisticamente 
significante e com parametro estimado de y 100 = 4,348, ceteris paribus. 

Em rela^ao aos componentes de efeitos aleatorios, tambem verificamos a existencia de significance esta- 
tistica das variances de u 00k , r 0 j k e e t j k , pelo fato de as estimates de T w000 , T r000 e C7 2 serem consideravelmente 
superiores aos respectivos erros-padrao. Neste sentido, novas correlates intraclasse podem ser calculadas, con- 
forme segue: 


• Correla£ao intraclasse de nivel 2: 


rho ' 


'estudante \ escola 


= corr 


^uPPO + ^r000 _ 180,196 + 333,675 


(Wo*)= ^ ^ 2 

^u000 + x r000 +CT 


180,196 + 333,675 + 10,146 


= 0,981 


• Correlafao intraclasse de nivel 3: 


r ^°escola ~ corr {jtjk > ^t' j'k) ~ 


T u000 


180,196 


1,000+M00+O 2 180,196 + 333,675 + 10,146 


: 0,344 


As duas propor^oes de variance sao mais elevadas do que aquelas obtidas na estima^ao do modelo nulo, o 
que demonstra a importance da inclusao da variavel correspondente a medida repetida no nivel 1. Alem disso, 
o resultado do teste de razao de verossimilhan^a (lr test) na parte inferior da Figura 16.31 permite que com- 
provemos que seja descartada a estima^ao de um modelo tradicional de regressao linear simples ( desempenho em 
fun^ao de ano) apenas com efeitos fixos. 

O nosso modelo, portanto, passa a ter, no presente momento, a seguinte especifica^ao: 


desempenho ^ = 57,844 4* 4,348.a«o y ^ + uq + e t j k 


Na sequencia, podemos arquivar (comando estimates store) as estimates obtidas para futura compara^ao 
com as que serao geradas na estima^ao de um modelo de tendencia linear com interceptos e inclina^oes alea- 
torias. Podemos tambem obter, por meio do comando predict, reffects, os valores esperados dos efeitos 
aleatorios BLUPS (best linear unbiased predictions) u 00k e r 0 j k . Mantendo a logica proposta na se^ao anterior, vamos 
digitar a seguinte sequencia de comandos: 

estimates store interceptoaleat 

predict uOO rO, reffects 

desc uOO rO 

by estudante, sort: generate tolist = (_n==l) 
list estudante escola uOO rO if escola <=2 & tolist 

A Figura 16.32 apresenta os valores dos termos de interceptos aleatorios u 00k e r 0 j k para os estudantes das 
duas primeiras escolas da base de dados. Podemos verificar que, enquanto os termos de erro u 00k sao invarian- 
tes para estudantes da mesma escola e ao longo do tempo (variavel uOO gerada na base de dados), os termos 
r 0 j k variam entre estudantes, porem sao invariantes para um mesmo estudante ao longo do tempo (variavel rO 
gerada na base de dados), o que caracteriza a existencia de um intercepto para cada estudante e um intercepto 
para cada escola. 
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. estimates store interceptoaleat 
. predict uOO rO, reffects 
. desc uOO rO 

storage display value 

variable name type format label variable label 


uOO float %9.0g BLUP r.e. for escola: _cons 

rO float %9.0g BLUP r.e. for estudante: _cons 

. by estudante, sort: generate tolist = (_n==l) 

. list estudante escola uOO rO if escola <—2 & tolist 


| estuda~e 

escola 

uOO 

rO 

1 


1 

estuda~e escola 

uOO 

rO 

1 

i 

1. | 

1 

1 

-10.8088 

-13.15515 

1 

161. 

1 

41 

1 

-10.8088 

-17.86931 

1 

5. | 

2 

1 

-10.8088 

19.09966 

1 

165. 

1 

42 

1 

-10.8088 

-25.06462 

1 

9. I 

3 

1 

-10.8088 

35.84734 

1 

169. 

1 

43 

1 

-10.8088 

16.27116 

1 

13. | 

4 

1 

-10.8088 

-2.932857 

1 

173. 

1 

44 

1 

-10.8088 

-17.42271 

1 

17. | 

5 

1 

-10.8088 

31.30685 

1 

177. 

1 

45 

1 

-10.8088 

36.07064 

1 

21. | 

6 

1 

-10.8088 

-5.413996 

1 

181. 

1 

46 

1 

-10.8088 

8.728494 

1 

25. | 

7 

1 

-10.8088 

-42.08523 

1 

185. 

1 

47 

1 

-10.8088 

-28.63746 

1 

29. | 

8 

1 

-10.8088 

-24.61801 

1 

189. 

1 

48 

2 

1.580118 

-19.89285 

1 

33. | 

9 

1 

-10.8088 

-24.56839 

1 

193. 

1 

49 

2 

1.580118 

-3.169975 

1 

37. | 

10 

1 

-10.8088 

39.09763 

1 

197. 

1 

50 

2 

1.580118 

6.556092 

1 

41. | 

11 

1 

-10.8088 

-7.895134 

1 

201. 

1 

51 

2 

1.580118 

24.07293 

1 

45. | 

12 

1 

-10.8088 

16.22153 

1 

205. 

1 

52 

2 

1.580118 

-16.56812 

1 

49. | 

13 

1 

-10.8088 

37.13753 

1 

209. 

1 

53 

2 

1.580118 

-1.979025 

1 

53. | 

14 

1 

-10.8088 

24.60778 

1 

213. 

1 

54 

2 

1.580118 

20.99632 

1 

57. | 

15 

1 

-10.8088 

37.08791 

1 

217. 

1 

55 

2 

1.580118 

-13.78925 

1 

61. | 

16 

1 

-10.8088 

22.12664 

1 

221. 

1 

56 

2 

1.580118 

-16.86586 

1 

65. | 

17 

1 

-10.8088 

27.93251 

1 

225. 

1 

57 

2 

1.580118 

13.65215 

1 

69. | 

18 

1 

-10.8088 

-11.41835 

1 

229. 

1 

58 

2 

1.580118 

-26.49268 

1 

73. | 

19 

1 

-10.8088 

-25.06462 

1 

233. 

1 

59 

2 

1.580118 

-34.33308 

1 

77. | 

20 

1 

-10.8088 

19.94324 

1 

237. 

1 

60 

2 

1.580118 

15.04158 

1 

81. ! 

21 

1 

-10.8088 

7.140564 

1 

241. 

1 

61 

2 

1.580118 

-14.7817 

1 

85. | 

22 

1 

-10.8088 

-10.27703 

1 

245. 

1 

62 

2 

1.580118 

-38.65026 

1 

89. | 

23 

1 

-10.8088 

-5.910223 

1 

249. 

1 

63 

2 

1.580118 

18.46556 

1 

93. | 

24 

1 

-10.8088 

-15.4378 

1 

253. 

1 

64 

2 

1.580118 

22.68349 

1 

97. | 

25 

1 

-10.8088 

-18.56403 

1 

257. 

1 

65 

2 

1.580118 

6.357596 

1 

101. | 

26 

1 

-10.8088 

34.18498 

1 

261. 

1 

66 

2 

1.580118 

14.54535 

1 

105. | 

27 

1 

-10.8088 

-17.22422 

1 

265. 

1 

67 

2 

1.580118 

26.15709 

1 

109. | 

28 

1 

-10.8088 

-12.16269 

1 

269. 

1 

68 

2 

1.580118 

-10.86151 

1 

113. | 

29 

1 

-10.8088 

-9.731179 

1 

273. 

1 

69 

2 

1.580118 

19.50763 

1 

117. | 

30 

1 

-10.8088 

-1.642665 

1 

277. 

1 

70 

2 

1.580118 

-23.06871 

1 

121. | 

31 

1 

-10.8088 

-18.46479 

1 

281. 

1 

71 

2 

1.580118 

28.48936 

1 

125. | 

32 

1 

-10.8088 

-24.22103 

1 

285. 

1 

72 

2 

1.580118 

6.853824 

1 

129. | 

33 

1 

-10.8088 

4.411312 

1 


+- 





■+ 

133. | 

34 

1 

-10.8088 

8.033776 

1 








137. | 

35 

1 

-10.8088 

10.21718 

1 








141. | 

36 

1 

-10.8088 

-17.67082 

1 








145. | 

37 

1 

-10.8088 

-.352474 

1 








149. | 

38 

1 

-10.8088 

-22.43461 

1 








153. | 

39 

1 

-10.8088 

-28.93519 

1 








157. | 

40 

1 

-10.8088 

-6.307207 

1 









Figura 16.32 Termos de interceptos aleatorios u 00k e r ojk para as duas primeiras escolas da amostra (em destaque, a 
identifica^ao da observa^ao correspondente ao primeiro periodo de tempo de cada estudante). 


A fim de propiciar melhor visualiza^ao dos interceptos aleatorios por escola e por estudante, podemos gerar 
dois graficos (Figuras 16.33 e 16.34), digitando os seguintes comandos: 

graph hbar (mean) uOO, over(escola) ytitle("Interceptos Aleatorios por 
Escola") 

graph hbar (mean) rO, over(estudante) ytitle("Interceptos Aleatorios 
por Estudante") 
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Figura 16.33 Interceptos aleatorios por escola. 



Figura 16.34 Interceptos aleatorios por estudante. 


Neste momento da modelagem, portanto, temos condi^oes de afirmar que o desempenho escolar dos estu- 
dantes segue uma tendencia linear ao longo do tempo, existindo variancia significativa de interceptos entre aque- 
les que estudam na mesma escola e entre aqueles que estudam em escolas distintas. 

Precisamos, assim, tambem verificar se existe variancia significativa de inclina^oes do desempenho escolar 
ao longo do tempo entre os diferentes estudantes, ja que os graficos das Figuras 16.26 e 16.29 ja nos ofereciam 
indicios de ocorrencia desse fenomeno. Portanto, vamos inserir efeitos aleatorios de inclina^ao nos niveis 2 e 3 
do nosso modelo multinivel que, com a manuten^ao dos efeitos aleatorios de intercepto, passara a ter a seguinte 
expressao: 
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Modelo de Tendencia Linear com Interceptos e Inclina^oes Aleatorias: 

desempenho tjk = n 0jk + ity jk .ano jk + e^ k 
K 0jk = k)()k + r 0jk 
K l jk =hok +r \jk 
b()0k =yoO0+ u OOk 
b\0k = 7\00 +u l0k 

que resulta em: 

desempenho tjk =7000 +y m .ano jk +u 00k +u m .ano Jk +r 0Jk +r ljk .ano jk +e tjk 

O comando para estima^ao deste modelo de tendencia linear com interceptos e inclina^oes aleatorias no 
Stata e: 

xtmixed desempenho ano || escola: ano || estudante: ano, var nolog reml 

Note agora que a variavel ano esta presente no componente de efeitos fixos e nos componentes de efeitos 
aleatorios de nivel 3 (multiplicando o termo de erro w 10fe ) e de nivel 2 (multiplicando o termo de erro Vy k ). Os 
outputs obtidos sao apresentados na Figura 16.35. 


1 . xtmixed desempenho ano || 

escola: ano || 

estudante: ano 

var nolog reml j 

I Mixed-effects REML regression 

Number of 

obs = 

2440 

Z 

0 

o 

H» 

Observations per Group 



Group Variable | Groups 

Minimum Average Maximum 


escola | 15 

80 

162.7 248 


estudante | 610 

4 

4.0 

4 




Wald chi2(1) 

424.89 

Log restricted-likelihood = 

-7464.819 

Prob > chi2 — 

0.0000 

desempenho | Coef. 

Std. Err. 

z P>|z| 

[95% Conf. 

Interval] 

ano | 4.343297 

.2107073 20 

61 0.000 

3.930318 

4.756276 

_cons | 57.85776 

3.955816 14 

63 0.000 

50.1045 

65.61102 

___ __ 

Random-effects Parameters 

] Estimate 

Std. Err. 

[95% Conf. 

Interval] 

escola: Independent 

1 




var(ano) 

| .5600495 

.2519118 

.2319283 

1.352381 

var(_cons) 

| 224.3434 

88.72199 

103.344 

487.014 

estudante: Independent 

1 




var(ano) 

( 3.157275 

.2305444 

2.736261 

3.643067 

var(_cons) 

| 374.2847 

22.00905 

333.5408 

420.0058 

var(Residual) 

| 3.867725 

.1595253 

3.567365 

4.193374 

1 LR test vs. linear regression: chi2(4) = 7179.03 

Prob > chi2 

= 0.0000 

| Note: LR test is conservative and provided only for reference. 



Figura 16.35 Outputs do modelo de tendencia linear com interceptos e inclina^oes aleatorias. 


Podemos verificar que, embora as estimates dos parametros de efeitos fixos nao se alterem consideravel- 
mente em rela^ao ao modelo anterior, as estimates das variancias sao diferentes, o que gera novas correlates 
intraclasse, conforme segue: 





















Modelos Multinivel de Regressao para Dados em Painel 895 


• Correla^ao intraclasse de nivel 2: 


— nrwv (v V ) ~ ^t/000 ~^m 100 ~*~Tr000 100 

r ^°estudante\escola “ corr ytjk •> *t'jk) 2 

T «000 + ' r «100 +T r000+^100 +<J 

224,343 + 0,560+374,285+3,157 
“ 224,343 + 0,560 + 374,285+3,157 + 3,868 


= 0,994 


• Correla^ao intraclasse de nivel 3: 


rh °escola = corr 


( r tjk< r fjk) - 


^ 000+^100 _ 

^w000 4 "Z r wl00 +T r000 +T rl00 +0 2 

_ 224,343 + 0,560 _ 

224,343 + 0,560+374,285 + 3,157 + 3,868 


= 0,371 


Logo, para este modelo, estimamos que os efeitos aleatorios de estudantes e escolas compoem aproximada- 
mente 99% da variancia total dos residuos! 

Vamos digitar o seguinte comando, a fim de que possamos comprovar a melhor adequa^ao dessa estima^ao 
sobre a estima^ao anterior, sem inclina^oes aleatorias: 

estimates store inclina^aoaleat 

Na sequencia, podemos digitar o comando que ira elaborar o teste de razao de verossimilhan^a: 

lrtest inclinagaoaleat interceptoaleat 

ja que o termo interceptoaleat refere-se a estima^ao ja realizada anteriormente. O resultado do teste e apre- 
sentado na Figura 16.36. 


. lrtest inclinagaoaleat interceptoaleat 

Likelihood-ratio test LR chi2(2) = 673.20 

(Assumption: interceptoal~t nested in inclinagaoal~t) Prob > chi2 = 0.0000 

Note: The reported degrees of freedom assumes the null hypothesis is not on 
the boundary of the parameter space. If this is not true, then the reported 
test is conservative. 

Note: LR tests based on REML are valid only when the fixed-effects specification 
is identical for both models. 


Figura 16.36 Teste de razao de verossimilhan^a para comparar as estimates dos modelos 
de tendencia linear com interceptos aleatorios e com interceptos e inclinagoes aleatorias. 


Fazendo uso dos valores obtidos da fun^ao de verossimilhan^a restrita nas Figuras 16.31 e 16.35, chegamos a 
seguinte estatistica X 2 do teste, com 2 graus de liberdade: 

X 2 ~ * LL r -interceptoaleat “ (”2. LL r -i nC lmagdoaleat)\ ~ {-2.(-7.801 ,420) - [-2.(-7.464 ,819 )]} =673 ,20 

que resulta em um Sig. X 2 = 0,000 < 0,05 e acaba por favorecer o modelo de tendencia linear com interceptos e 
inclina^oes aleatorias .Vale novamente frisar, conforme tambem explicita a nota na parte inferior da Figura 16.36, 
que este teste de razao de verossimilhan^a somente e valido quando for feita a compara^ao das estimates ob- 
tidas por maxima verossimilhan<;a restrita (REML) de dois modelos com especifica^ao identica do componente 
de efeitos fixos. Como, no nosso caso, os dois modelos, que foram estimados por REML , apresentam a mesma 
especifica^ao y 000 + Y\oo' ano jk no componente de efeitos fixos, o teste e considerado valido. 

Portanto, o nosso modelo passa a ter a seguinte especifica^ao: 


desempenho tjk =57,858+4,343.anoy* +u QQk +u m .ano jk +r 0jk +r ljk .ano jk +e tjk 


Na presente situa<;ao, temos condi^oes de afirmar que o desempenho escolar dos estudantes segue uma ten¬ 
dencia linear ao longo do tempo, existindo variancia significativa de interceptos e de inclina^oes entre aqueles 
que estudam na mesma escola e entre aqueles que estudam em escolas distintas. 
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Desta forma, vamos inserir a variavel sexo , de nivel 2, na analise, a fun de verificarmos se essa caracteristica 
explica a varia^ao no desempenho escolar anual entre os estudantes. 

Modelo de Tendencia Linear com Interceptos e Inclina^oes Aleatorias e a Variavel sexo de Nivel 2: 

desempenhOfjk = n {)jk + n xjk .ano jk + e tjk 

K 0jk ~ b 00k + b()ik-sexOj k + r 0 j k 

n \ jk = hok Jr h\k- sexo jk + r \ jk 

b 00k =7000 +u W)k 

b Q\k=yO\Q 

hQk = y\QQ +u \Qk 

h\k = yno 

que resulta na seguinte expressao: 

desempenho tjk = 7000+ 7m- ano „jk + yo\0- sexo jk +y\\o-sexo jk .ano jk 
+ u 00 k +U\Q k .atiOj k +r 0 jk +r x j k .ano jk +e tjk 

Precisamos, inicialmente, gerar uma nova variavel que corresponde a multiplica^ao de sexo por ano. O coman- 
do a seguir gera esta variavel ( sexoano ): 

gen sexoano = sexo*ano 

Na sequencia, podemos estimar o nosso modelo de tendencia linear com interceptos e inclinagoes aleatorias 
e a variavel sexo de nivel 2, digitando o seguinte comando: 

xtmixed desempenho ano sexo sexoano || escola: ano || estudante: ano, 
var nolog reml 

Os outputs gerados sao apresentados na Figura 16.37. 


. xtmixed desempenho ano sexo sexoano || escola: ano || estudante: ano, var 
nolog reml 

Mixed-effects REML regression Number of obs = 2440 


1 

No. of 

Observations per Group 

Group Variable | 

Groups 

Minimum 

Average 

Maximum 

escola | 

15 

80 

162.7 

248 

estudante j 

610 

4 

4.0 

4 


Wald chi2(3) 

Log restricted-likelihood = -7424.2732 Prob > chi2 


633.54 

0.0000 


desempenho | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

ano | 

4.028844 

.2024281 

19.90 

0.000 

3.632092 

4.425595 

sexo | 

-15.03265 

1.766749 

-8.51 

0.000 

-18.49542 

-11.56989 

sexoano j 

.7050945 

.1827647 

3.86 

0.000 

.3468824 

1.063307 

_cons j 

64.49828 

3.465572 

18.61 

0.000 

57.70589 

71.29068 


Random-effects Parameters 1 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

escola: Independent I 

var(ano) | 
var(_cons) j 

.4113062 

161.6346 

.1977923 

64.79808 

.1602627 

73.67059 

1.055597 

354.6293 

estudante: Independent I 

var(ano) j 
var (__cons) | 

3.096463 

337.7062 

.2272074 

19.9023 

2.681685 

300.867 

3.575395 

379.0562 

var(Residual) | 

3.867745 

.1594995 

3.567432 

4.193339 

LR test vs. linear regression: 

chi2(4) 

= 6850.06 

Prob > chi2 

= 0.0000 


Note: LR test is conservative and provided only for reference. 


Figura 16.37 Outputs do modelo de tendencia linear com interceptos e inclina^oes aleatorias e a variavel sexo de nivel 2. 
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Este modelo apresenta estimagoes significantes, tanto dos parametros de efeitos fixos, quanto das variancias 
dos termos de efeitos aleatorios, ao nivel de significance de 5%, e, neste momento da modelagem, temos condi- 
goes de afirmar que o desempenho escolar dos estudantes segue uma tendencia linear ao longo do tempo, exis- 
tindo variancia significativa de interceptos e de inclinagoes entre aqueles que estudam na mesma escola e entre 
aqueles que estudam em escolas distintas e, mais do que isso, o fato de determinado estudante ser do sexo femi- 
nino ou masculino e parte da razao de existencia dessa variagao no desempenho escolar. 

O modelo passa a ter a seguinte especificagao: 


desempenho t j k =64,498 + 4,029 .anOj k -15,033 .sexoj k + 0,705.sexOj k .anOj k 
+ u 00k + u x ok .ano jk + r 0 jk + r x jk .ano jk + e tJk 

e,pela quafpodemos verificar que estudantes do sexo masculino ( dummy sexo — 1) apresentam, em media e ceteris 
paribus , desempenhos piores do que os do sexo feminino. 

Vamos, por fim, investigar se a variavel texp, de nivel 3 (tempo medio de experiencia docente dos professores 
da escola, em anos), tambem explica a variagao no desempenho escolar anual entre os estudantes. Apos algumas 
analises intermediarias, partiremos para a estimagao do modelo hierarquico de tres niveis com a seguinte espe¬ 
cificagao: 


Modelo de Tendencia Linear com Interceptos e Inclinagoes Aleatorias e as Variaveis 
sexo de Nivel 2 e texp de Nivel 3 (Modelo Completo): 

desempenho t j k — ttq j k + tc x j k . cmoj k + e^j k 
n 0jk =b 00k +b 0l k- sexo jk + r 0I jk 
K \ jk =h()k +b [ Ik- sexo jk + r \ jk 
b()0k ~ 7000 +7001 tex Pk +u 00k 
b oik = yoio 

hok - y\ 00 + y\ 0 \- tex Pk +u \ 0 k 
bilk =7110 

que resulta na seguinte expressao: 

desempenho tjk =y 000 +y 100 .ano jk +y m .sexo jk +y m .texp k 
+ y no .sexo jk .ano jk +y m .texp k .ano jk 
+u 00k +u m .anOj k +r 0 j k +r X j k .ano jk +e tjk 

Para estimarmos esse modelo, e preciso que criemos mais uma nova variavel ( texpano ), correspondente a mul- 
tiplicagao de texp por ^nc.Vamos entao digitar o seguinte comando: 

gen texpano = texp*ano 

Assim, podemos estimar o modelo proposto digitando o seguinte comando: 

xtmixed desempenho ano sexo texp sexoano texpano || escola: ano || 
estudante: ano, var nolog reml 

cujos outputs sao apresentados na Figura 16.38. 
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. xtmixed desempenho ano sexo texp sexoano texpano || escola: ano || estudante: 
ano, var nolog reml 

Mixed-effects REML regression Number of obs = 2440 


| No. of Observations per Group 

Group Variable | Groups Minimum Average Maximum 




escola | 

15 

80 

162.7 

248 

estudante | 

610 

4 

4.0 

4 



Wald chi2(5) 

= 

883.26 

Log restricted-likelihood = -7419.6785 

Prob > chi2 

= 

0.0000 


desempenho | 

Coef. 

Std. Err. 

z 

P>UI 

[95% Conf. 

Interval] 

ano | 

4.528292 

.2586443 

17.51 

0.000 

4.021359 

5.035226 

sexo | 

-14.69529 

1.762759 

-8.34 

0.000 

-18.15024 

-11.24035 

texp | 

1.179424 

.343969 

3.43 

0.001 

.5052567 

1.85359 

sexoano j 

.6485018 

.1828469 

3.55 

0.000 

.2901286 

1.006875 

texpano | 

-.0570213 

.0211086 

-2.70 

0.007 

-.0983934 

-.0156491 

cons | 

54.72215 

3.925206 

13.94 

0.000 

47.02889 

62.41541 


Random-effects Parameters | 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

escola: Independent | 

var(ano) | 
var(_cons) | 

.262667 

87.99372 

.1394859 

37.97699 

.0927653 

37.7645 

.7437469 

205.031 

estudante: Independent | 

var(ano) | 
var(_cons) | 

3.092474 

337.6269 

.2267585 

19.89377 

2.678496 

300.8031 

3.570436 

378.9587 

var(Residual) | 

3.867764 

.1595005 

3.567449 

4.19336 

LR test vs. linear regression: 

chi2 (4) 

= 6557.63 

Prob > chi2 

= 0.0000 


Note: LR test is conservative and provided only for reference. 


Figura 16.38 Outputs do modelo de tendencia linear com interceptos e inclinagoes 
aleatorias e as variaveis sexo de nivel 2 e texp de nivel 3. 


Ernbora as estimates dos parametros de efeitos fixos e das variancias dos termos aleatorios sejam significan- 
tes, ao nivel de significance de 5%, e preciso que estudemos a estrutura das matrizes de variancia-covariancia dos 
efeitos aleatorios (u 00k , u 10k ) e (r 0 j k , r ljk ). Com base nos outputs da Figura 16.38, temos que: 


• Matriz de variancia-covariancia dos efeitos aleatorios para o nivel escola : 


u 00k 


'87,994 

0 

_ U 10k. 


0 

0,263_ 


• Matriz de variancia-covariancia dos efeitos aleatorios para o nivel estudante: 

337,627 0 ] 

0 

Vamos arquivar os resultados desta estimafao, digitando: 

estimates store finalindependente 

Como nao especificamos nenhuma estrutura de covariancia para esses termos de erro, o Stata pressupoe, na 
elabora^ao do comando xtmixed, que esta estrutura seja independente, ou seja, que cov(u 00k , u 10k ) = 0 e que 
co v(r 0jk , r ljk ) = 0. Entretanto, podemos generalizar a estrutura dessas matrizes, permitindo que u 00k e u 10k sejam 
correlacionados e que r 0jk e r ljk tambem sejam correlacionados. Para tanto, e preciso que adicionemos, no coman¬ 
do xtmixed, o termo covariance (unstructured) nos componentes de efeitos aleatorios do nivel escola e do 
nivel estudante, de modo que: 


3,092 


var 


r 0jk 

n jk 
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xtmixed desempenho ano sexo texp sexoano texpano || escola: ano, 
covariance(unstructured) || estudante: ano, covariance(unstructured) 
var nolog reml 

que gera os outputs da Figura 16.39. 


. xtmixed desempenho ano sexo texp sexoano texpano || escola: ano, 

covariance(unstructured) || estudante: ano, covariance(unstructured) var nolog reml 


Mixed-effects REML regression 


Number 

of obs = 

2440 

Group Variable 

| No. of 

| Groups 

Observations per Group 

Minimum Average Maximum 


escola 

! 15 

80 

162 

.7 

248 


estudante 

| 610 

4 

4 

.0 

4 


Log restricted-likelihood = 

-7376.7147 


Wald chi2(5) 

Prob > chi2 = 

868.08 

0.0000 

desempenho | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

ano | 

4.515641 

.2583749 

17.48 

0.000 

4.009236 

5.022047 

sexo | 

-14.70213 

1.795536 

-8.19 

0.000 

-18.22131 

-11.18294 

texp | 

1.178656 

.3459065 

3.41 

0.001 

.5006918 

1.856621 

sexoano | 

.6518855 

.1847166 

3.53 

0.000 

.2898477 

1.013923 

texpano | 

-.0566496 

.0209988 

-2.70 

0.007 

-.0978065 

-.0154928 

cons | 

54.73435 

3.951437 

13.85 

0.000 

46.98968 

62.47902 


Random-effects Parameters 

1 

Estimate 

Std. Err. 

[95% Conf. 

Interval; 

escola: Unstructured 

var(ano) 

1 

1 

.2554224 

.1378072 

.0887183 

.7353682 

var( cons) 

1 

88.7366 

38.40337 

37.99447 

207.2456 

cov(ano,_cons) 

1 

-3.185306 

1.904226 

-6.91752 

.5469079 

estudante: Unstructured 

var(ano) 

“ + " 

1 

1 

3.2575 

.2350138 

2.827965 

3.752276 

var(_cons) 

1 

350.9127 

20.68884 

312.6185 

393.8978 

cov(ano,_cons) 

1 

-13.25089 

1.673704 

-16.53129 

-9.970494 

var(Residual) 

1 

3.795043 

.1536567 

3.505521 

4.108476 


LR test vs. linear regression: chi2(6) - 6643.55 Prob > chi2 = 0.0000 


Note: LR test is conservative and provided only for reference. 


Figura 16.39 Outputs do modelo de tendencia linear com interceptos e inclina^oes aleatorias e 
as variaveis sexo de nivel 2 e texp de nivel 3, com termos aleatorios (u 00k , u m ) e (r ojk , r yk ) correlacionados. 


As estimates dos parametros de efeitos fixos sao bastante proximas daquelas obtidas na estima^ao do modelo 
que considera a existencia de estrutura independente das matrizes de variancia-covariancia dos termos aleatorios 
(Figura 16.38). 

Ja em rela^ao aos parametros de efeitos aleatorios, com exce^ao das estimates de u 10k e de cov(u 00k , u m ,), que 
sao estatisticamente significantes ao nivel de significancia de 10% (ja que os respectivos \ z \ > 1,64, sendo esse 
o valor critico da distribui^ao normal padrao que resulta em um nivel de significancia de 10%), todas as demais 
estimates sao significantes ao nivel de significancia de 5%. Com finalidade didatica, adotaremos o nivel de con- 
fian^a de 90% para darmos sequencia a analise. 

Neste sentido, considerando que cov(u 00k , u 10k ) e cov(r 0 ^, Vy^) sejam estatisticamente diferentes de zero, com 
base nos outputs da Figura 16.39 podemos escrever que: 


• Matriz de variancia-covariancia dos efeitos aleatorios para o nivel escola: 


u 00k 


'88,737 -3,185' 

_ u 10k_ 


-3,185 0,255 _ 


var 
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• Matriz de variancia-covariancia dos efeitos aleatorios para o nivel estudante: 


r 0jk~ 


'350,913 

-13,251' 

njk\ 


—13,251 

3,258 _ 


O pesquisador tambem obtera essas matrizes caso digite o seguinte comando logo apos a ultima estimator 
estat recovariance 
cujos outputs sao apresentados na Figura 16.40. 


1 . estat recovariance 



Random-effects 

covariance 

matrix for 

level escola 

1 

ano 

_cons 


ano | 
_cons | 

.2554224 

-3.185306 

88.7366 


Random-effects 

covariance 

matrix for 

level estudante 

1 

.. -. i 

ano 

_cons 


ano | 
_cons | 

3.2575 

-13.25089 

350.9127 



Figura 16.40 Matrizes de variancia-covariancia com termos aleatorios (u 0Qk , u m ) e ( r ojkl r yk ) correlacionados. 

Mesmo estatisticamente diferentes de zero as estimates das covariancias dos termos aleatorios nos dois m- 
veis da analise, se o pesquisador desejar comprovar a melhor adequa^ao deste ultimo modelo sobre aquele que 
considera a matriz com termos de erro independentes, basta que elabore um teste de razao de verossimilhan^a 
para comparar as duas estimates. 

Com tal finalidade, vamos primeiramente digitar o seguinte comando, referente a estima^ao com termos ale¬ 
atorios unstructured: 

estimates store finalunstructured 

Na sequencia, podemos digitar o comando para realiza^ao do referido teste: 

lrtest finalunstructured finalindependente 

O resultado e apresentado na Figura 16.41. 


. lrtest finalunstructured finalindependente 

Likelihood-ratio test LR chi2(2) = 85.93 

(Assumption: finalindepen~e nested in finalunstruc-d) Prob > chi2 = 0.0000 

Note: LR tests based on REML are valid only when the fixed-effects specification 
is identical for both models. _ 

Figura 16.41 Teste de razao de verossimilhanga para comparar as estimates dos modelos completos 
com termos aleatorios (u 00kl u m ) e {r 0jkl r yk ) independentes e correlacionados. 

A estatistica X 2 deste teste, com 2 graus de liberdade, tambem pode ser obtida por meio da seguinte expressao: 

J 2 2 = [-2 .LL r . ind -(-2.LL r . unstmc )] = {-2.(-7.419,679) - [-2.(-7.376,715)]} = 85,93 

que resulta em um Sig. x\ ~ 0,000 < 0,05. Portanto, podemos afirmar que a estrutura das matrizes de variancia- 
-covariancia dos termos aleatorios pode ser considerada unstructured neste exemplo, ou seja, podemos considerar 
que os termos de erro u 00k e u 10k sejam correlacionados (cov(u 00h u 10k ) ^ 0) e que os termos de erro r 0jk e r ljk tam¬ 
bem sejam correlacionados (co v(r 0jh r ljk ) ^ 0). 

Chegamos ao nosso modelo final, com a seguinte especifica^ao: 






Modelos Multinivel de Regressao para Dados em Painel 901 


desempenho t jk - 54,734 + 4,516. -\4,lQ2.sexOj k + lfil9.texp k 
+ 0,652 sexojk -anOj k - 0,057. texp k .anoj k 
u 00k u 10k - ano jk 4 * r t) jk r \ jk • ano jk e tjk 

Na sequencia, podemos obter os valores esperados BLUPS (best linear unbiased predictions) dos efeitos aleatorios 
u iob u oob hjk e r ojk do nosso modelo final, digitando: 

predict ulOfinal uOOfinal rlfinal rOfinal, reffects 

que gera no banco de dados quatro novas variaveis, denominadas ulOfinal , uOOfinal , rlfinal e rOfinal que corres¬ 
pondent respectivamente, aos efeitos aleatorios de inclina^ao e de intercepto do nivel escola e aos efeitos aleato¬ 
rios de inclina^ao e de intercepto do nivel estudante. O seguinte comando, cujos outputs encontram-se na Figura 
16.42, faz com que sejam apresentadas as describes destes termos aleatorios: 

desc ulOfinal uOOfinal rlfinal rOfinal 


. desc ulOfinal uOOfinal rlfinal rOfinal 

storage display value 


variable name 

type 

format 

label 

variable label 

ulOfinal 

float 

%9. Og 


BLUP r.e. 

for escola: ano 

uOOfinal 

float 

%9.0g 


BLUP r.e. 

for escola: cons 

rlfinal 

float 

%9. Og 


BLUP r.e. 

for estudante: ano 

rOfinal 

float 

%9. Og 


BLUP r.e. 

for estudante: _cons 


Figura 16.42 Descri^ao dos termos aleatorios u m , u 00k , r yk e r 0jk . 


Alem disso, tambem podemos obter os valores esperados do desempenho escolar de cada estudante em cada 
um dos periodos monitorados, por meio da digita^ao do seguinte comando: 

predict yhatestudante, fitted level(estudante) 

que define a variavel yhatestudante , que tambem pode ser obtida por meio do seguinte comando: 

gen yhatestudante = 54.73435 + 4.515641*ano - 14.70213*sexo + 

1.178656*texp + .6518855*sexoano - .0566496*texpano + uOOfinal + 
ul0final*ano + rOfinal + rlfinal*ano 

que corresponde a expressao: 

desempenho_estudantejj i = 54,734 + 4 , 516 .ano jk - 14 , 102.sexOj k +lfil9.texp k 

+ 0 , 652 .sexojk . anoj k - 0 , 057 . texp k . anoj k 
+ u 00k + u x ok .ano Jk + r 0 jk + r x jk .ano jk 

Se o pesquisador digitar o seguinte comando, ira obter os valores esperados do desempenho escolar de cada 
estudante em cada um dos periodos monitorados, porem sem a considera^ao de efeitos aleatorios no nivel estu¬ 
dante: 

predict yhatescola, fitted level(escola) 

que define a variavel yhatescola no banco de dados, que tambem pode ser obtida por meio do seguinte comando: 

gen yhatescola = 54.73435 + 4.515641*ano - 14.70213*sexo + 

1.178656*texp + .6518855*sexoano - .0566496*texpano + uOOfinal + 
ulOfinal*ano 
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que corresponde a expressao: 

desempenhojestudantejk =54,734 + 4,516 .anoj^ -14, IQl.sexoj^ +\,\19.texpj c 

+ 0,652 .sexojy..anoj ^ - 0,057. texp^.ano j ^ 

+ w 00 k + u 10k- ano jk 


Os termos de erro e tjk podem ser obtidos por meio da digita^ao do comando predict etjk, res (que equi- 
vale a desempenho - yhatestudante). 

Neste momento, portanto, temos condi^oes de finalizar a analise, verificando que, alem do desempenho esco- 
lar dos estudantes seguir uma tendencia linear ao longo do tempo, existindo variancia significativa de interceptos 
e de inclina^oes entre aqueles que estudam na mesma escola e entre aqueles que estudam em escolas distintas, e 
o sexo dos estudantes ser significante para explicar parte dessa varia^ao, o proprio tempo medio de experiencia 
docente em cada escola (variavel de nivel 3) tambem explica parte das discrepancias no desempenho escolar anual 
entre os estudantes provenientes de diferentes escolas. 

O comando a seguir, digitado apos o comando sort estudante ano, faz com que seja gerado um grafico 
(Figura 16.43) com os valores previstos do desempenho escolar ao longo do tempo para os 50 primeiros estu¬ 
dantes da amostra ( yhatestudante) e, por meio do qual, podemos visualizar distintos interceptos e inclina^oes ao 
longo do tempo para diferentes estudantes. 

sort estudante ano 

graph twoway connected yhatestudante ano if estudante <= 50, connect(L) 



Figura 16.43 Valores previstos do desempenho escolar ao longo do tempo 
para os 50 primeiros estudantes da amostra. 


Por fim, um pesquisador curioso, com o intuito de questionar a superioridade dos modelos multimvel em 
rela^ao aos modelos tradicionais de regressao estimados por MQO na existencia de bases de dados com es- 
truturas aninhadas, decide elaborar um grafico em que e possivel comparar os valores previstos do desempe¬ 
nho escolar gerados por esta modelagem hierarquica de tres niveis (HLM3) com aqueles gerados por meio de 
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uma estima^ao por MQO, para todos os estudantes da amostra em cada um dos periodos analisados, usando as 
mesmas variaveis explicativas ano , sexo , texp, sexoano e texpano (obviamente, existem somente efeitos fixos na 
estima^ao por MQO). 

Neste sentido, e digitada a seguinte sequencia de comandos, que gera o grafico da Figura 16.44: 

quietly reg desempenho ano sexo texp sexoano texpano 

predict yhatreg 

graph twoway mspline yhatreg desempenho || mspline yhatestudante 
desempenho || Ifit desempenho desempenho ||, legend(label(1 ”MQO") 
label(2 ”HLM3") label(3 "Valores Observados")) 



Figura 16.44 Valores previstos por MQO e por HLM3 x valores observados 
do desempenho escolar. 


A reta pontilhada, a 45°, mostra os valores observados do desempenho escolar de cada um dos estudantes da 
amostra em cada um dos periodos analisados ( desempenho x desempenho). Por meio do grafico da Figura 16.44, po- 
demos comprovar, nitidamente, a superioridade do nosso modelo de tendencia linear com variaveis explicativas e 
com interceptos e inclina^oes aleatorias nos niveis 2 e 3 (modelo HLM3 completo) sobre o modelo de regressao 
linear multipla estimado por MQO com as mesmas variaveis explicativas, o que demonstra a importancia de se 
considerarem componentes de efeitos aleatorios na existencia de estruturas aninhadas de dados. 

O Quadro 16.1 apresenta, de forma consolidada, os comandos gerais, em Stata, para elaboragao da modela- 
gem hierarquica linear de dois niveis com dados agrupados e da modelagem hierarquica linear de tres niveis com 
medidas repetidas, conforme estudado nas se^oes 16.4.1 e 16.4.2, respectivamente. O assunto e realmente vasto 
e novos modelos intermediaries podem ser estimados sempre pelo pesquisador, em fun^ao de seus objetivos de 
pesquisa e dos constructos propostos. 

Feitas essas considera^oes, e respeitada a multilevel step-up strategy ao longo de toda esta se^ao, vamos elaborar 
os mesmos exemplos por meio do software SPSS, a fim de propiciar ao pesquisador a oportunidade de compara- 
£ao do manuseio dos softwares, dos procedimentos e rotinas para estima^ao dos modelos e das logicas com que 
sao apresentados os outputs. 
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QUADRO 16.1 Mocfefagens hierarquicas, modelos intermediaries (multilevel step-up strategy) e comandos em Stata. 


Modelagem 

Modelo Intermediario 

Comando em Stata 

Hierarquica 
Linear de 

Dois Niveis 
com Dados 
Agrupados 

Modelo Nulo (Modelo Nao 
Condicional) 

xtmixed Y || var(nivel 2): 

Modelo com Interceptos Aleatorios 

xtmixed Y X || var(nivel 2): 

Modelo com Interceptos e 
Inclina^oes Aleatorias 

xtmixed Y X || var(nivel 2): X 

Modelo com Interceptos e 
Inclina^oes Aleatorias e Termos de 
Erro Correlacionados 

xtmixed Y X || var(nivel 2): X covariance(unstructured) 

Hierarquica 
Linear de 

Tres Niveis 
com Medidas 
Repetidas 

Modelo Nulo (Modelo Nao 
Condicional) 

xtmixed Y || var(nivel 3): || var(nivel 2): 

Modelo de Tendencia Linear com 
Interceptos Aleatorios 

xtmixed Y t || var(nivel 3): || var(nivel 2): 

Modelo de Tendencia Linear com 
Interceptos e Inclina^oes Aleatorias 

xtmixed Y t || var(nivel 3): t || var(nivel 2): t 

Modelo de Tendencia Linear com 
Interceptos e Inclina^oes Aleatorias 
e Variavel de Nivel 2 

xtmixed Y t X Xt || var(nivel 3): t || var(nivel 2): t 

Modelo de Tendencia Linear com 
Interceptos e Inclinagoes Aleatorias 
e Variaveis de Niveis 2 e 3 

xtmixed Y t X W Xt Wt WXt | | var (nivel 3) : t | | 

var(nivel 2): t 

Modelo de Tendencia Linear com 
Interceptos e Inclina^des Aleatorias 
e Variaveis de Niveis 2 e 3 e Termos 
de Erro Correlacionados 

xtmixed Y t X W Xt Wt WXt | | var (nivel 3) : 

t, covariance(unstructured) || var(nivel 2): 

t, covariance(unstructured) 


Nota: Considerada uma variavel X de nivel 2, uma variavel W de nivel 3 (quando houver) e t como variavel temporal. Alem disso, Y refere- 
se a variavel dependente. Em todos os casos, foi omitido o termo correspondente ao metodo de estima^ao. Conforme discutido, enquanto o 
metodo de estima^ao padrao adotado pelo Stata ate a versao 12 e o de maxima verossimilhan^a restrita (reml), o metodo padrao passa a ser o 
de maxima verossimilhan^a (mle) a partir da versao 13. 


16.5. ESTIMA^AO DE MODELOS HIERARQUICOS LINEARES NO SOFTWARE SPSS 

Apresentaremos agora o passo a passo para a elabora^ao dos nossos exemplos por meio do IBM SPSS 
Statistics Software®. A reprodu^ao das imagens nesta se^ao tem autoriza^ao da International Business Machines 
Corporation®. 

O maior objetivo, neste momenta, e propiciar ao pesquisador uma oportunidade de elaborar as tecnicas de 
modelagem multinivel no SPSS. A cada apresenta^ao de um output , faremos men^ao ao respectivo resultado ob- 
tido na elabora^ao das tecnicas por meio do Stata, a fim de que o pesquisador possa compara-los e, dessa forma, 
decidir qual software utilizar, em fun^ao das caracteristicas de cada um e da propria acessibilidade para uso. 

16.5.1. Estima^ao de um modelo hierarquico linear de dois niveis com dados agrupados no 
software SPSS 

Voltando ao exemplo utilizado na se^ao 16.4.1, lembremos que o nosso professor levantou dados sobre o 
desempenho escolar (nota de 0 a 100 mais um bonus por participa^ao em sala) de 2.000 estudantes prove- 
nientes de 46 escolas, bem como dados sobre a quantidade semanal de horas de estudo (variavel explicativa 
de nivel 1) e sobre a natureza das escolas (publica ou privada) e o tempo medio de experiencia docente dos 
professores em cada uma delas (variaveis explicativas de nivel 2). A base de dados completa esta no arquivo 
DesempenhoAlunoEscola.sav. 
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Mantendo a logica apresentada, vamos, inicialmente, estimar o modelo nulo, conforme segue: 

Modelo Nulo: 


desempenhoy = + Uqj + ry 


Embora seja possivel elaborar modelagens multinivel fazendo uso do menu Analyze —» Mixed Models do 
SPSS, com base em procedimentos point-and-dick, optamos, nesta segao, por estimar os modelos por meio de sin- 
taxes, a fim de propiciar uma melhor comparagao com as estimates elaboradas na segao 16.4.1 e facilitar a com- 
preensao sobre a logica de inclusao das variaveis nos componentes de efeitos fixos e aleatorios. Para tanto, com 
o arquivo DesempenhoAlunoEscola.sav aberto, devemos clicar em File —> New —» Syntax. Para o modelo 
nulo, devemos digitar a seguinte sintaxe na janela que sera aberta: 

MIXED desempenho 
/METHOD = REML 
/PRINT = SOLUTION TESTCOV 
/FIXED = INTERCEPT 

/RANDOM = INTERCEPT | SUBJECT(escola) . 

em que a primeira linha (MIXED) 4 apresenta apenas a variavel dependente desempenho e as duas linhas seguintes 
(METHOD e PRINT) determinam, respectivamente, o metodo de estimagao adotado (no caso, maxima veros- 
similhanga restrita, ou REML) e que sejam apresentados, nos outputs , as estimates de efeitos fixos com corres- 
pondentes erros-padrao. Por fim, nas duas ultimas linhas (FIXED e RANDOM) podem ser especificadas, alem 
do termo de intercepto, as variaveis que farao parte dos componentes de efeitos fixos e aleatorios, respectivamen¬ 
te, em que o termo SUBJECT inserido apos a barra vertical | identifica a variavel de grupo correspondente ao 
nivel 2 (no nosso caso, a variavel escola ). 

A Figura 16.45 apresenta a janela do SPSS com a inclusao da sintaxe correspondente ao modelo nulo, com des- 
taque para o botao Run Selection que devera ser clicado a fim de que a modelagem multinivel seja elaborada. 


I File Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Run Tools Window Help 


/* 




4 ' 7 - 


9® ill 



MIXED 


1 Cl 

2 

3 

4 

5 >6 


MIXED desempenho 
/METHOD = REML 
/PRINT = SOLUTION TESTCOV 
/FIXED = INTERCEPT 

I/RANDOM = INTERCEPT f SUBJECT(escola) 


Botao para elaboragao 
da sintaxe 


Figura 16.45 Janela com inclusao da sintaxe para estimagao do modelo nulo no SPSS. 


A seguir, na Figura 16.46, sao apresentados os outputs gerados pelo SPSS. 

Inicialmente, podemos verificar que o output Model Dimension apresenta a quantidade de mveis considera- 
dos na modelagem (no caso, 2) e a quantidade de parametros estimados (no caso, 3, incluindo o termo de erro). 
O termo Variance Components informa que esta sendo considerada uma estrutura da matriz de variancia- 
-covariancia com termos de erro aleatorios independentes. 

Em Information Criteria, e apresentado o valor de -2 Restricted Log Likelihood, que corresponde a -2 
vezes o valor maximo obtido do logaritmo da fungao de verossimilhanga restrita para a estimagao dos parametros 
do modelo. Podemos verificar que o output do SPSS mostra que -2 .LL r - 17.504,04, que e exatamente igual a 
-2 vezes o valor apresentado pelo Stata (Figura 16.8), ja que -2.(-8.752,02) - 17.504,04. 


4 O comando MIXED passou a estar dispomvel no SPSS a partir de 2001, na versao 11.0. 
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Model Dimension 3 



Number of 
Levels 

Covariance 

Structure 

Number of 
Parameters 

Subject 

Variables 

Fixed Effects Intercept 

1 


1 


Random Effects Intercept 

1 

Variance 

Components 

1 

escola 

Residual 



1 


Total 

2 


3 



a. Dependent Variable: desempenho escolar (nota de 0 a 100). 


Information Criteria 3 


-2 Restricted Log 

Likelihood 

17504,041 

Akaike's Information 
Criterion (AIC) 

17508,041 

Hurvich and Tsai's 

Criterion (AICC) 

17508,047 

Bozdogan's Criterion 
(CAIC) 

17521,242 

Schwarz’s Bayesian 
Criterion (BIC) 

17519,242 


The information criteria are 
displayed in smaller-is-better 
forms. 

a. Dependent Variable: 
desempenho escolar (nota de 0 a 
100). 


Fixed Effects 

Type III Tests of Fixed Effects 3 


Source 

Numerator df 

Denominator 

df 

F 

Sig. 

Intercept 

1 

44,388 

1181,424 

,000 


a. Dependent Variable: desem penho escolar (nota de 0 a 
100). 


Estimates of Fixed Effects 3 








95% Confidence Interval | 

Parameter 

Estimate 

Std. Error 

df 

t 

Sig. 

Lower Bound 

Upper Bound 

Intercept 

61,049010 

1,776134 

44,388 

34,372 

,000 

57,470330 

64,627689 


a. Dependent Variable: desempenho escolar (nota de 0 a 100). 


Covariance Parameters 


Estimates of Covariance Parameters 3 







95% Confidence Interval j 

Parameter 

Estimate 

Std. Error 

Wald Z 

Sig. 

Lower Bound 

Upper Bound 

Residual 

347,561691 

11,120778 

31,253 

,000 

326,434748 

370,055975 

Intercept [subject = Variance 

escola] 

135,779174 

30,750059 

4,416 

,000 

87,108516 

211,643878 


a. Dependent Variable: desempenho escolar (nota de 0 a 100). 


Figura 16.46 Outputs do modelo nulo no SPSS. 

Na sequencia, em Fixed Effects, e apresentada a estima^ao do parametro y 00 (efeito fixo), que corresponde 
a media dos desempenhos escolares esperados dos estudantes (reta horizontal estimada no modelo nulo, ou in- 
tercepto geral). Podemos verificar que a estima^ao de y 00 = 61,049 corresponde aquela obtida na Figura 16.8 na 
elabora^ao do modelo nulo no Stata. 

Por fim, sao apresentadas as estimates dos componentes de variancia dos termos de erro (efeitos aleato- 
rios) dos niveis 1 e 2 (Covariance Parameters). Podemos aqui tambem verificar que os outputs correspondem 
aos obtidos pelo Stata, ja que as estimates de T 00 = 135,779 (Intercept [subject=escola]) e <7 2 = 347,562 
(Residual). Note, entretanto, que o SPSS apresenta de maneira direta, ao contrario do Stata, as estatisticas z das 
estimates das variancias dos termos de erro, com respectivos niveis de significance. Assim, para os dados do nos- 
so exemplo, podemos comprovar que existe variabilidade no desempenho escolar dos estudantes provenientes de 
escolas diferentes, visto que Sig. z T 00 < 0,05 (definido o nivel de confian^a de 95%). 
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Com base na correlagao intraclasse, calculada a seguir, podemos verificar que aproximadamente 28% da vari- 
ancia total do desempenho escolar e devido a alteragao entre escolas. 


rho _ Tqo = 135,779 

too+a 2 135,779 + 347,562 


= 0,281 


A fim de mantermos a logica apresentada na segao 16.4.1, vamos agora estimar o modelo com interceptos 
aleatorios, incluindo a variavel horns como explicativa, conforme segue: 


Modelo com Interceptos Aleatorios: 


desempenhOy = 7oo +y\Q-horas i j +uqj +ry 


A sintaxe para a estimagao desse modelo no SPSS e: 


MIXED desempenho WITH horas 

/METHOD = REML 

/PRINT = SOLUTION TESTCOV 

/FIXED = INTERCEPT horas 

/RANDOM = INTERCEPT | SUBJECT(escola) . 


em que devem ser inseridas todas as variaveis explicativas que o pesquisador desejar apos o termo WITH na 
primeira linha da sintaxe. A partir de sua execu^ao, chegamos aos principals outputs apresentados na Figura 16.47. 


Information Criteria 3 


-2 Restricted Log 

Likelihood 

12744,329 

Akaike's Information 
Criterion (AIC) 

12748,329 

Hurvich and Tsai's 

Criterion (AICC) 

12748,335 

Bozdogan's Criterion 
(CAIC) 

12761,528 

Schwarz's Bayesian 
Criterion (BIC) 

12759,528 


The information criteria are 
displayed in smaller-is-better 
forms. 


a. Dependent Variable: 
desempenho escolar (nota de 0 a 
100 ). 


Fixed Effects 


Estimates of Fixed Effects 3 








95% Confidence Interval | 

Parameter 

Estimate 

Std. Error 

df 

t 

Sig. 

Lower Bound 

Upper Bound 

Intercept 

,534468 

,787530 

91,043 

,679 

,499 

-1,029855 

2,098790 

horas 

3,251924 

,023163 

1984,423 

140,390 

,000 

3,206497 

3,297352 


a. Dependent Variable: desempenho escolar (nota de 0 a 100). 


Covariance Parameters 


Estimates of Covariance Parameters 3 







95% Confidence Interval ji 

Parameter 

Estimate 

Std. Error 

Wald Z 

Sig. 

Lower Bound 

Upper Bound 

Residual 

31,763781 

1,016389 

31,252 

,000 

29,832877 

33,819661 

Intercept [subject = Variance 

escolaj 

19,125335 

4,199478 

4,554 

,000 

12,436696 

29,411223 


a. Dependent Variable: desempenho escolar (nota de 0 a 100). 


Figura 16.47 Principal’s outputs do modelo com interceptos aleatorios. 

Esses outputs correspondem aos apresentados na Figura 16.10 (Stata) e, por meio dos mesmos, podemos ve¬ 
rificar que existe significance estatistica das estimagoes das variances dos termos de erro T 00 = 19,125 e (f - 
31,764, que resultam na seguinte correlagao intraclasse: 
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rho = T °° =-- 

T 00 +C7 2 1 9,125 + 31,764 


= 0,376 


Neste sentido, ha um incremento da propor^ao do componente de variancia correspondente ao intercepto 
em rela^ao ao modelo nulo, o que favorece a decisao de inclusao da variavel horas para o estudo do comporta- 
mento do desempenho escolar na compara^ao entre escolas. 

O nosso modelo, portanto, passa a ter, no presente momento, a seguinte especifica^ao: 


desempenhoy = 0,534+3,252 .horasy + uqj +Vy 

em que o efeito fixo do intercepto corresponde a media esperada dos desempenhos escolares, entre escolas, dos 
alunos que, por alguma razao, nao estudam (horas {j = 0) e a inclina^ao permite que afirmemos que uma hora a 
mais de estudo semanal, em media, faz com que a media esperada dos desempenhos escolares, entre escolas, seja 
incrementada em 3,252 pontos, sendo este parametro estatisticamente significante 5 . 

Neste momento, vamos inserir efeitos aleatorios de inclina^ao no nosso modelo multimvel que, com a ma- 
nuten^ao dos efeitos aleatorios de intercepto, passara a ter a seguinte expressao: 


Modelo com Interceptos e Inclina^oes Aleatorias: 

desempenhoy = y^Ey^.horaSy +uqj +uy .horasy +ry 


A nova sintaxe e: 

MIXED desempenho WITH horas 
/METHOD = REML 
/PRINT = SOLUTION TESTCOV 
/FIXED = INTERCEPT horas 

/RANDOM = INTERCEPT horas | SUBJECT(escola) . 


que gera os outputs apresentados na Figura 16.48. 

Analogamente, esses outputs correspondem aqueles apresentados na Figura 16.13 (Stata). 

Podemos verificar que as estimates dos parametros e das variancias no modelo com interceptos e inclina- 
^oes aleatorias sao identicas as obtidas na estima^ao dos parametros do modelo apenas com interceptos aleatorios 
(Figura 16.47). Isso ocorre pelo fato de a estima^ao da variancia T n (horas [subject=escola]) ser estatistica¬ 
mente igual a zero, o que faz com que o valor obtido de -2 .LL r tambem seja o mesmo daquele apresentado na 
Figura 16.47. 


5 Se o pesquisador desejar elaborar um teste de razao de verossimilhan^a para comparar as estimates dos modelos nulo e com interceptos 
aleatorios, cujas especifica^oes dos componentes fixos sao obviamente diferentes, devera faze-lo estimando estes dois modelos por maxima 
verossimilhan^a (ML), em vez de por maxima verossimilhan^a restrita (REML) . Assim, devera digitar as duas sintaxes a seguir, correspon- 
dentes, respectivamente, as estimates por maxima verossimilhan^a (no SPSS, METHOD = ML) do modelo nulo e do modelo com 
interceptos aleatorios: 

MIXED desempenho 
/METHOD = ML 
/PRINT = SOLUTION TESTCOV 
/FIXED = INTERCEPT 

/RANDOM = INTERCEPT | SUBJECT(escola) . 

MIXED desempenho WITH horas 

/METHOD = ML 

/PRINT = SOLUTION TESTCOV 

/FIXED = INTERCEPT horas 

/RANDOM = INTERCEPT | SUBJECT(escola) . 

que, embora nao apresentados aqui, geram valores de -2XL iguais, respetivamente, a 17.507,017 e 12.739,629. Portanto, o teste de razao 
de verossimilhan^a apresenta nivel de significancia Sig.^ (17.507,017 - 12.739,629 = 4.767,39) = 0,000 < 0,05, o que favorece a ado^ao 
do modelo com efeitos aleatorios no intercepto. 
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Information Criteria 3 


-2 Restricted Log 

Likelihood 

12744,329 

Akaike's Information 
Criterion (AIC) 

12750,329 

Hurvich and Tsai’s 

Criterion (AICC) 

12750,341 

Bozdogan's Criterion 
(CAIC) 

12770,128 

Schwarts Bayesian 
Criterion (BIC) 

12767,128 


The information criteria are 
displayed in smaller-is-better 
forms. 

a. Dependent Variable: 
desempenho escolar (nota de 0 a 
100 ). 


Fixed Effects 


Estimates of Fixed Effects 3 








95% Confidence Interval j 

Parameter 

Estimate 

Std. Error 

df 

t 

Sig. 

Lower Bound 

Upper Bound 

Intercept 

,534468 

,787530 

91,043 

,679 

,499 

-1,029855 

2,098790 

horas 

3,251924 

,023163 

1984,423 

140,390 

,000 

3,206497 

3,297352 


a. Dependent Variable: desempenho escolar (nota de 0 a 100). 


Covariance Parameters 


Estimates of Covariance Parameters 11 







95% Confidence Interval | 

Parameter 

Estimate 

Std. Error 

Wald Z 

Sig. 

Lower Bound 

Upper Bound 

Residual 

31,763781 

1,016389 

31,252 

,000 

29,832877 

33,819661 

Intercept [subject = Variance 

escolaj 

19,125335 

4,199478 

4,554 

,000 

12,436696 

29,411223 

horas [subject = escolaj Variance 

,000000 a 

,000000 






a. This covariance parameter is redundant. The test statistic and confidence interval cannot be computed. 

b. Dependent Variable: desempenho escolar (nota de 0 a 100). 


Figura 16.48 Principals outputs do modelo com interceptos e inclina^oes aleatorias. 

Portanto, a aplica^ao de um teste de razao de verossimilhan^a ofereceria um resultado que obviamente indi- 
caria o favorecimento da ado^ao do modelo apenas com interceptos aleatorios, ja que o nivel de significance Sig. 

(12.744,329 - 12.744,329 = 0) = 1,000 > 0,05, conforme ja mostrava a Figura 16.14. 

Se o pesquisador desejar generalizar a estrutura da matriz de variancia-covariancia dos termos de erro aleato¬ 
rios, permitindo que u 0 j e u Xj sejam correlacionados, basta que estime os parametros do modelo usando o termo 
COVTYPE(UN) ao final da linha RANDOM da ultima sintaxe, que passara a ser: 

MIXED desempenho WITH horas 

/METHOD = REML 

/PRINT = SOLUTION TESTCOV 

/FIXED = INTERCEPT horas 

/RANDOM = INTERCEPT horas | SUBJECT(escola) COVTYPE(UN) . 

em que o termo COVTYPE(UN) considera a existence de uma matriz de variancia-covariancia unstructured . 
Os outputs deste modelo nao estao apresentados aqui, porem um teste de razao de verossimilhan^a para comparar 
as estimates dos modelos com interceptos e inclina^oes aleatorias com termos de erro u 0 j e Uy independentes e 
correlacionados mostrara que a estrutura da matriz de variancia-covariancia entre u 0 j e Uy pode ser considerada 
independente, de forma analoga ao apresentado na Figura 16.18. 

Sendo independente a estrutura matriz de variancia-covariancia dos erros aleatorios e sendo mais adequado 
o modelo apenas com interceptos aleatorios, vamos partir para a estima^ao do modelo final completo, que possui 
a seguinte especifica^ao: 

Modelo Final Completo: 

desempenhoij =y 0 Q +y\Q.horas i j + 1 • texpj +y 0 2 privj 

+ J\ i privj .horas y + uqj +ry 
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Note que ja partimos para a ultima estima^ao obtida na se$ao 16.4.1. A sintaxe para a elabora^ao da mode¬ 
lagem e: ' . . 

MIXED desempenho WITH boras texp priv 

/METHOD = REML 

/PRINT = SOLUTION TESTCOV 

/FIXED = INTERCEPT horas texp priv priv*horas 

/RANDOM = INTERCEPT | SUBJECT(escola) 

/SAVE = PRED FIXPRED . 

em que a ultima linha agora apresenta o ter mo SAVE = PRED FIXPRED, que faz com que sejam geradas 
duas novas variaveis no banco de dados, PRED_1 e FXPRED_1. Enquanto a primeira corresponde aos valo- 
res previstos do desempenho escolar por estudante (yhat no Stata), inclusive com componentes aleatorios u 0j de 
intercepto, a segunda refere-se aos valores previstos do desempenho escolar decorrentes apenas do componente 
de efeitos fixos. Os outputs gerados sao apresentados na Figura 16.49, e os valores esperados BLUPS ( best linear 
unbiased predictions) dos efeitos aleatorios u 0j do nosso modelo final podem, portanto, ser obtidos pot meio da se- 
guinte sintaxe: 

COMPUTE blups=PRED_l-FXPRED_l. 

que gera no banco de dados uma nova variavel, denominada blups , igual a variavel uOfinal definida na estima^ao 
deste modelo em Stata. 


Information Criteria 3 


-2 Restricted Log 

Likelihood 

12719,507 

Akaike’s Information 
Criterion (AIC) 

12723,507 

Hurvich and Tsai's 

Criterion (AICC) 

12723,513 

Bozdogan's Criterion 
(CAIC) 

12736,704 

Schwarz's Bayesian 
Criterion (BIC) 

12734,704 


The information criteria are 
displayed in smaller-is-better 
forms. 

a. Dependent Variable: 
desempenho escolar (nota de 0 a 
100 ). 


Fixed Effects 

Estimates of Fixed Effects 3 


Parameter 

Estimate 

Std. Error 

df 

t 

Sig. 

95% Confidence Interval | 

Lower Bound 

Upper Bound 

Intercept 

-2,710350 

,893160 

94,435 

-3,035 

,003 

-4,483634 

-,937066 

horas 

3,281046 

,029276 

1988,758 

112,074 

,000 

3,223631 

3,338460 

texp 

,866203 

,164196 

42,244 

5,275 

,000 

,534898 

1,197508 

priv 

-5,610535 

2,288084 

58,462 

-2,452 

,017 

-10,189862 

-1,031209 

horas * priv 

-,080121 

,047722 

1986,701 

-1,679 

,093 

-,173711 

,013469 


a. Dependent Variable: desempenho escolar (nota de 0 a 100). 


Covariance Parameters 


Estimates of Covariance Parameters 3 







95% Confidence Interval | 

Parameter 

Estimate 

Std. Error 

Wald Z 

Sig. 

Lower Bound 

Upper Bound 

Residual 

31,720600 

1,015254 

31,244 

,000 

29,791867 

33,774199 

Intercept [subject = Variance 

escolaj 

11,057762 

2,559522 

4,320 

,000 

7,024914 

17,405779 


a. Dependent Variable: desempenho escolar (nota de 0 a 100). 


Figura 16.49 Principais outputs do modelo final completo com interceptos aleatorios. 
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Esses resultados correspondem aos apresentados na Figura 16.20 (Stata). Com estimates significances das va- 
riancias dos termos de erro aleatorios e dos parametros de efeitos fixos, ao nivel de confian^a de 95% (exce^ao 
feita a estima^ao do parametro da variavel combinada horas*priv , significance ao nivel de confian^a de 90%), che- 
gamos a seguinCe expressao do modelo proposCo: 


desempenhOy = -2,710 + 3,281 .horasy + 0,866. texpj — 5,610 privj 
- 0,080 privj .horaSy + Uqj + r t j 

consCruido com a inclusao de variaveis explicaCivas dos niveis 1 e 2 e por meio da multilevel step-up strategy . 
Podemos concluir, porCanCo, que exisCem diferen^as no comporCamenCo do desempenho escolar enCre esCudanCes 
proveniences de mesmas escolas e de escolas discincas, e essas diferen^as ocorrem, respeccivamence, em fun^ao da 
quancidade semanal de horas de escudo de cada esCudanCe, da naCureza (publica ou privada) e do Cempo medio de 
experiencia dos professores de cada escola. 

Na sequencia elaboraremos, Cambem em SPSS, um exemplo de modelo hierarquico linear de Cres niveis com 
medidas repecidas. 

16.5.2. Estima^ao de um modelo hierarquico linear de tres niveis com medidas 
repetidas no software SPSS 

NesCa se<pao, vamos reComar o exemplo ucilizado na se$ao 16.4.2, lembrando que o nosso professor conse- 
guiu dados sobre o desempenho escolar (noCa de 0 a 100) ao longo de quaCro anos (variavel Cemporal de nivel 
1) de 2.000 esCudanCes proveniences de 15 escolas, bem como dados sobre o sexo de cada esCudanCe (varia¬ 
vel explicaCiva de nivel 2) e sobre o Cempo medio de experiencia docenCe em cada uma das escolas (variavel 
explicaciva de nivel 3) .A base de dados compleCa e apresenCada no arquivo DesempenhoTempoAlunoEscola. 
sav. 

E imporCanCe mencionar que o SPSS apresenca Cempos de processamenCo de estimates de modelos mulci- 
nivel, principalmenCe para uma quancidade de niveis igual ou superior a Cres, consideravelmenCe maior do que 
o ScaCa. 

Mancendo a logica apresenCada na se$ao 16.4.2, vamos inicialmenCe escimar o modelo nulo, conforme segue: 

Modelo Nulo: 


desempenho tjk =y 000 +u m +r 0jk +e tjk 

Para esse modelo nulo, devemos digitar a seguinte rotina na janela de sintaxes: 

MIXED desempenho 
/METHOD = RE ML 
/PRINT = SOLUTION TESTCOV 
/FIXED = INTERCEPT 

/RANDOM = INTERCEPT | SUBJECT(estudante) 

/RANDOM = INTERCEPT | SUBJECT(escola) . 

em que a primeira linha (MIXED) apresenta apenas a variavel dependente desempenho e as duas linhas seguintes 
(METHOD e PRINT) deCerminam, respeccivamence, o meCodo de esCima^ao adoCado (no caso, maxima ve- 
rossimilhan^a rescrica, ou REML) e que sejam apresenCados, nos outputs , as esCimagoes de efeicos fixos com cor¬ 
respondences erros-padrao. Na linha seguinCe (FIXED) pode ser especificada a variavel que fara parCe dos com- 
ponenCes de efeicos fixos, alem do Cermo de inCercepCo. Por fim, nas duas ultimas linhas da rotina (RANDOM) 
podem ser especificadas, alem dos Cermos de inCercepCo, as variaveis que farao parCe dos componenCes de efeicos 
aleaCorios nos diferences niveis da analise, em que o Cermo SUBJECT inserido apos a barra verCical | idencifica 
a variavel de grupo correspondence a cada nivel (no nosso caso, estudante para o nivel 2 e escola para o nivel 3). 
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A Figura 16.50 apresenta os outputs gerados pelo SPSS. 


Model Dimension 3 



Number of 
Levels 

Covariance 

Structure 

Number of 
Parameters 

Subject 

Variables 

Fixed Effects 

Intercept 

1 


1 


Random Effects 

Intercept 

1 

Variance 

Components 

1 

e stud ante 


Intercept 

1 

Variance 

Components 

1 

escola 

Residual 




1 


Total 


3 


4 



a. DependentVariable: desempenho escolar. 


Information Criteria 3 


-2 Restricted Log 

Likelihood 

18184,277 

Akaike's Information 
Criterion (AIC) 

18190,277 

Hurvich and Tsai's 

Criterion (AICC) 

18190,287 

Bozdogan's Criterion 
(CAIC) 

18210,675 

Schwarz's Bayesian 
Criterion (BIC) 

18207,675 


The information criteria are 
displayed in smaller-is-better 
forms. 

a. DependentVariable: 
desempenho escolar. 


Fixed Effects 


Type III Tests of Fixed Effects 3 


Source 

Numerator df 

Denominator 

df 

F 

Sig. 

Intercept 

1 

13,982 

373,992 

,000 


a. DependentVariable: desempenho escolar. 


Estimates of Fixed Effects 3 


Parameter 

Estimate 

Std. Error 

df 

t 

Sig. 

95% Confidence Interval | 

Lower Bound 

Upper Bound 

Intercept 

68,713953 

3,553153 

13,982 

19,339 

,000 

61,092286 

76,335620 


a. Dependent Variable: desempenho escolar. 


Covariance Parameters 


Estimates of Covariance Parameters 3 







95% Confidence Interval j 

Parameter 

Estimate 

Std. Error 

Wald Z 

Sig. 

Lower Bound 

Upper Bound 

Residual 

41,649389 

1,376886 

30,249 

,000 

39,036312 

44,437385 

Intercept [subject = Variance 

estudante] 

325,799148 

19,495760 

16,711 

,000 

289,743835 

366,341134 

Intercept [subject = Variance 

escolaj 

180,192658 

71,603650 

2,517 

,012 

82,697580 

392,628101 


a. DependentVariable: desempenho escolar. 


Figura 16.50 Outputs do modelo nulo no SPSS. 
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Nao vamos analisar novamente todos os outputs do modelo gerado, visto que sao exatamente iguais aos apre- 
sentados na Figura 16.30, obtida na estima^ao deste modelo nulo em Stata. 

Entretanto, podemos verificar que a estima^ao do parametro y 000 (Fixed Effects) e igual a 68,714, que cor- 
responde a media dos desempenhos escolares anuais esperados dos estudantes (reta horizontal estimada no mo¬ 
delo nulo, ou intercepto geral). 

Alem disso, temos que as estimates das variancias dos termos de erro (Covariance Parameters) T m000 — 
180,194 (Intercept [subject=escola]), = 325,799 (Intercept [subject=estudante]) e (T 2 = 41,649 
(Residual) sao estatisticamente diferentes de zero, ao nivel de significance de 5%. Esse fato permite que afir- 
memos que ha variabilidade significativa no desempenho escolar ao longo dos quatro anos da analise, que ha 
variabilidade significativa no desempenho escolar, ao longo do tempo, entre estudantes de uma mesma escola, e 
que ha variabilidade significativa no desempenho escolar, ao longo do tempo, entre estudantes provenientes de 
escolas distintas. 

As duas correlates intraclasse, correspondentes aos niveis 2 e 3 da analise, podem ser calculadas conforme 
segue: 


• Correla£ao intraclasse de nivel 2: 


rhn -rnrr(Y V )- luQQOllrQQQ - 180,194 + 325,799 

r ' lo estudante\escola corr \*tjk’*t’jk)~ 2 i 


TuOOO + ^rOOO ++ 180,194+325,799+41,649 


= 0,924 


• Correlayao intraclasse de nivel 3: 


rho escola = corr 



ImOOO 


T w000 +T r000 +cr 


2 


_ 180,194 _ 

180,194 + 325,799 + 41,649 


= 0,329 


Logo, a correla^ao entre os desempenhos escolares anuais, para uma mesma escola, e igual a 32,9% ( rho escoia ) e 
a correla^ao entre os desempenhos escolares anuais, para um mesmo estudante de determinada escola, e igual a 
92,4/o (yfoo estuc [ ante | esco i a ). 

A fim de mantermos a logica apresentada na se^ao 16.4.2, vamos partir agora para a estima^ao do modelo de 
tendencia linear com interceptos e inclina^oes aleatorias, incluindo a variavel ano (medida repetida) como expli- 
cativa no nivel 1, conforme segue: 


Modelo de Tendencia Linear com Interceptos e Inclina^oes Aleatorias: 

desempenho tjk =y 000 +y m .ano jk +w 0 0k + u \0k- ano jk + r 0jk + r \jk‘ ano jk + e tjk 

A sintaxe para a estima^ao deste modelo no SPSS e: 


MIXED desempenho WITH ano 
/METHOD = REML 
/PRINT = SOLUTION TESTCOV 
/FIXED = INTERCEPT ano 

/RANDOM = INTERCEPT ano | SUBJECT(estudante) 
/RANDOM = INTERCEPT ano | SUBJECT(escola) . 


em que devem ser inseridas todas as variaveis explicativas que o pesquisador desejar apos o termo WITH na pri- 
meira linha da sintaxe. Apos nove iterates e alguns minutos de processamento do software, chegamos aos prin¬ 
cipal outputs apresentados na Figura 16.51. 
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Information Criteria 3 


-2 Restricted Log 

Likelihood 

14929,638 

Akaike's Information 
Criterion (AIC) 

14939,638 

Hurvich and Tsai’s 

Criterion (AICC) 

14939,663 

Bozdogan's Criterion 
(CAIC) 

14973,633 

Schwarz's Bayesian 
Criterion (BIC) 

14968,633 


The information criteria are 
displayed in smaller-is-better 
forms. 

a. Dependent Variable: 
desempenho escolar. 


Fixed Effects 


Estimates of Fixed Effects 3 








95% Confidence Interval | 

Parameter 

Estimate 

Std. Error 

df 

t 

Sig. 

Lower Bound 

Upper Bound 

Intercept 

57,857761 

3,955770 

13,993 

14,626 

,000 

49,373090 

66,342433 

ano 

4,343297 

,210705 

13,903 

20,613 

,000 

3,891085 

4,795509 


a. Dependent Variable: desempenho escolar. 


Covariance Parameters 


Estimates of Covariance Parameters 3 








95% Confidence Interval | 

Parameter 


Estimate 

Std. Error 

Wald Z 

Sig. 

Lower Bound 

Upper Bound 

Residual 


3,867728 

,159525 

24,245 

,000 

3,567368 

4,193377 

Intercept [subject = 
estudante] 

Variance 

374,284569 

22,009042 

17,006 

,000 

333,540633 

420,005615 

ano [subject = estudante] 

Variance 

3,157274 

,230544 

13,695 

,000 

2,736260 

3,643066 

Intercept [subject = 
escola] 

Variance 

224,337985 

88,719082 

2,529 

,011 

103,342179 

486,998939 

ano [subject = escola] 

Variance 

,560036 

,251904 

2,223 

,026 

,231924 

1,352342 


a. Dependent Variable: desempenho escolar. 


Figure 16.51 Principals outputs do modelo de tendencia linear com interceptos e inclinagoes aleatorias. 

Esses outputs correspondem aqueles apresentados na Figura 16.35 e, por meio dos quais, podemos verificar 
que os parametros estimados dos componentes de efeitos fixos e aleatorios sao estatisticamente diferentes de zero, 
ao mvel de significancia de 5%, o que nos da subsidios a afirma^ao de que o desempenho escolar dos estudantes 
segue uma tendencia linear ao longo do tempo, existindo variancia significativa de interceptos e de inclina^oes 
entre aqueles que estudam na mesma escola e entre aqueles que estudam em escolas distintas 6 . Por meio da cor- 
rela^ao intraclasse de nivel 2, calculada a seguir, estimamos que os efeitos aleatorios de estudantes e escolas corn- 
poem aproximadamente 99% da variancia total dos residuos! 


6 Se o pesquisador desejar comparar os resultados dessa estima^ao com aqueles provenientes da estima^ao de um modelo de tendencia 
linear apenas com interceptos aleatorios, assim como realizado em Stata, basta que digite a seguinte rotina na janela de sintaxes do SPSS: 

MIXED desempenho WITH ano 
/METHOD = REML 
/PRINT = SOLUTION TESTCOV 
/FIXED = INTERCEPT ano 

/RANDOM = INTERCEPT | SUBJECT(estudante) 

/RANDOM = INTERCEPT | SUBJECT(escola) . 

Os resultados, embora nao apresentados aqui, geram valor de -2XL igual a 15.602,840. Portanto, um teste de razao de verossimilhan^a 
apresentara mvel de significancia Sig. (15.602,840 - 14.929,638 ^ 673,20) — 0,000 < 0,05, o que favorece a ado^ao do modelo de 
tendencia linear com interceptos e inclina^oes aleatorias. 
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„i,_ - mvv (v V ) - t m000 +t m 100 + T r000 +T rlOO 

r hO es tudante\escola ~~ corr ytjk>*t'jk) ~~ 9 

T w000 +T wlOO + T r000 +T rlOO 

224,343 + 0,560 + 374,285+3,157 _ Q 
” 224,343 + 0,560 + 374,285 + 3,157 + 3,868 ~~ ’ 

Neste momento, o nosso modelo passa a ter a seguinte especifica^ao: 

desempenho t j k =57,858 + 4,343 .ano^ +^00A: + u l0k' ano jk + r 0 jk +r ljk' ano jk +e tjk 

Por fim, investigaremos se as variaveis sexo e texp , de niveis 2 e 3, respectivamente, tambem explicam a varia- 
£ao no desempenho escolar anual entre os estudantes. Apos algumas analises intermediarias, partiremos para a 
estima^ao do seguinte modelo completo de tres niveis: 

Modelo de Tendencia Linear com Interceptos e Inclinafoes Aleatorias e as 
Variaveis sexo de Nivel 2 e texp de Nivel 3 (Modelo Completo): 


desempenho tjk =y 000 +y m xrno jk +y m .sexo jk + y (m .texp k 
+ y, l0 .sexo jk .ano jk + y m .texp k .ano jk 
+u 00k +u \()k- ano jk + r 0 jk + r \ jk - ano jk + e tjk 

Para a estimagao deste modelo, vamos partir para a generaliza^ao da estrutura das matrizes de variancia- 
-covariancia dos termos aleatorios, permitindo que ( u 00h w 10fe ) e (r 0jfe , ry k ) sejam correlacionados (matrizes de 
variancia-covariancia unstructured). Para tanto, devemos inserir a expressao COVTYPE(UN) ao final das linhas 
RANDOM, fazendo com que a sintaxe do SPSS seja: 

MIXED desempenho WITH ano sexo texp 

/METHOD = REML 

/PRINT = SOLUTION TESTCOV 

/FIXED = INTERCEPT ano sexo texp sexo*ano texp*ano 
/RANDOM = INTERCEPT ano | SUBJECT(estudante) COVTYPE(UN) 

/RANDOM = INTERCEPT ano | SUBJECT(escola) COVTYPE(UN) 

/SAVE = PRED FIXPRED RESID . 

em que a ultima linha apresenta agora o termo SAVE = PRED FIXPRED RESID, que faz com que sejam 
geradas tres novas variaveis no banco de dados, PRED_1 , FXPRED_1 e BJESID^l, que correspondem, respecti¬ 
vamente, aos valores previstos do desempenho escolar por estudante ( yhatestudante no Stata), aos valores previstos 
do desempenho escolar decorrentes apenas do componente de efeitos fixos e aos termos de erro e t j k . 

Apos cinco iterates e alguns minutos de processamento do software, chegamos aos outputs apresentados na 
Figura 16.52. 

Estes outputs correspondem aqueles apresentados na Figura 16.39 (Stata) e, por meio dos quais, verificamos 
que todos os parametros estimados para o componente de efeitos fixos sao estatisticamente diferentes de zero, ao 
nivel de significance de 5%. Ja em rela^ao aos parametros dos componentes de efeitos aleatorios, apenas as esti¬ 
mates de u l0k e de cov(u 00h u i0 ^ sao estatisticamente significantes ao nivel de significance de 10%, sendo todas 
as demais significantes ao nivel de significance de 5%. Neste sentido, considerando que cov(« 00fe , u 10k ) e cov(r 0 j h 
hjk) sejam estatisticamente diferentes de zero, podemos escrever que: 
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• Matriz de variancia-covariancia dos efeitos aleatorios para o nivel escola: 


u 00k 


'88,734 -3,185' 

_ U 10 k . 


-3,185 0,255 _ 


• Matriz de variancia-covariancia dos efeitos aleatorios para o nivel estudante: 


\jk 


*350,913 

-13,251' 

J\jk_ 


-13,251 

3,257 _ 


Information Criteria 3 


-2 Restricted Log 

Likelihood 

14753,429 

Akaike’s Information 
Criterion (AIC) 

14767,429 

Hurvich and Tsai's 

Criterion (A1CC) 

14767,476 

Bozdogan's Criterion 
(CAIC) 

14815,010 

Schwarz’s Bayesian 
Criterion (BIC) 

14808,010 


The information criteria are 
displayed in smaller-is-better 
forms. 

a. Dependent Variable: 
desempenho escolar. 


Fixed Effects 


Estimates of Fixed Effects 3 


Parameter 

Estimate 

Std. Error 

df 

t 

Sig. 

95% Confidence Interval | 

Lower Bound 

Upper Bound 

Intercept 

54,734351 

3,951390 

15,516 

13,852 

,000 

46,336504 

63,132198 

ano 

4,515640 

,258373 

21,461 

17,47 7 

,000 

3,979027 

5,052254 

sexo 

-14,702129 

1,795535 

606,763 

-8,188 

,000 

-18,228348 

-11,175911 

texp 

1,178656 

,345902 

13,131 

3,407 

,005 

,432135 

1,925177 

ano * sexo 

,651886 

,184716 

514,048 

3,529 

,000 

,288994 

1,014778 

ano * texp 

-.056650 

,020999 

13,707 

-2,698 

,018 

-.101777 

-.011522 


a. Dependent Variable: desempenho escolar. 


Covariance Parameters 


Estimates of Covariance Parameters 3 


Parameter 

Estimate 

Std. Error 

Wald Z 

Sig. 

95% Confidence Interval | 

Lower Bound 

Upper Bound 

Residual 


3,795045 

,153657 

24,698 

,000 

3,505523 

4,108479 

Intercept + ano [subject = 

UN (1,1) 

350,912601 

20,688828 

16,961 

,000 

312,618371 

393,897688 

estudante] 

UN (2,1) 

-13,250888 

1,673703 

-7,917 

,000 

-16,531285 

-9,970490 


UN (2,2) 

3,257499 

,235014 

13,861 

,000 

2,827965 

3,752275 

Intercept + ano [subject = 

UN (1,1) 

88,734046 

38,402010 

2,311 

,021 

37,993584 

207,238439 

escola] 

UN (2,1) 

-3,185216 

1,904173 

-1,673 

,094 

-6,917327 

,546894 


UN (2,2) 

,255415 

,137804 

1,853 

,064 

,088715 

,735350 


a. Dependent Variable: desempenho escolar. 


Figura 16.52 Principals outputs do modelo de tendencia linear com interceptos e inclina$oes aleatorias e 
as variaveis sexo de nivel 2 e texp de nivel 3, com termos aleatorios (u 0ok , u m ) e (r 0jkl r }jk ) correlacionados. 
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Portanto, a expressao do nosso modelo final apresenta a seguinte especificagao 7 : 

desempenho^ = 54,734+4,516.<z«Oy£ -XA.lOl.sexoj^ +\ y \19.texpj c 
+ 0,652 .sexOj k .anoj k - 0,057. texp^.anoj^ 

+ u 00k + u l0k .ano jk +r 0 jk + r x jh .ano jk + e tjk 

construido com a inclusao de variaveis explicativas dos mveis 2 e 3 e por meio da multilevel step-up strategy. 

Podemos concluir, portanto, que o desempenho escolar dos estudantes segue uma tendencia linear ao longo 
do tempo, existindo variancia significativa de interceptos e de inclinagoes entre aqueles que estudam na mesma 
escola e entre aqueles que estudam em escolas distintas, o sexo dos estudantes e significante para explicar parte 
dessa variagao e o tempo medio de experiencia docente em cada escola tambem explica parte das discrepancias 
no desempenho escolar anual entre os estudantes provenientes de diferentes escolas. 

Analogamente ao Quadro 16.1 apresentado ao final da segao 16.4, o Quadro 16.2 consolida as rotinas gerais 
para estimagao, em SPSS, de modelos multinivel. 


Quadro 16.2 Modelagens hierarquicas, modelos intermediaries (multilevel step-up strategy) e rotinas em SPSS. 


Modelagem 

Modelo Intermediario 

Rotina em SPSS 


Modelo Nulo (Modelo Nao 
Condicional) 

MIXED Y 

/FIXED - INTERCEPT 

/RANDOM = INTERCEPT | SUBJECT(var_mvel2) . 



MIXED Y WITH X 

Hierarquica 
Linear de 

Dois Niveis 
com Dados 
Agrupados 

Modelo com Interceptos Aleatorios 

/FIXED = INTERCEPT X 

/RANDOM = INTERCEPT | SUBJECT(var_mvel2) . 

Modelo com Interceptos e Inclinagoes 
Aleatorias 

MIXED Y WITH X 

/FIXED = INTERCEPT X 

/RANDOM = INTERCEPT X | SUBTECT(var_ 
n£vel2) . 


Modelo com Interceptos e Inclinagoes 
Aleatorias e Termos de Erro 
Correlacionados 

MIXED Y WITH X 

/FIXED = INTERCEPT X 

/RANDOM = INTERCEPT X | SUBJECT(var_ 
mvel2) COVTYPE(UN) . 


7 Analogamente, se o pesquisador tambem desejar comparar os resultados desta estimagao com aqueles provenientes de uma estimagao de 
um modelo considerando termos aleatorios independentes, assim como realizado em Stata, basta que ele digite a seguinte rotina na janela 
de sintaxes do SPSS: 

MIXED desempenho WITH ano sexo texp 

/METHOD = REML 

/PRINT = SOLUTION TESTCOV 

/FIXED = INTERCEPT ano sexo texp sexo*ano texp*ano 
/RANDOM = INTERCEPT ano | SUBJECT(estudante) 

/RANDOM = INTERCEPT ano | SUBJECT(escola) . 

Os resultados, embora nao apresentados aqui, geram valor de -2.LL igual a 14.839,357. Portanto, um teste de razao de verossimilhanfa 
apresentara nivel de significancia Sig.j^l (14.839,357 - 14.753,429 = 85,93) = 0,000 < 0,05, o que permite que afirmemos que a estrutura 
da matriz de variancia-covariancia entre os termos de erro pode ser considerada unstructured neste exemplo, ou seja, podemos considerar 
que os termos de erro u 00k e u m sejam correlacionados ( cov(u 00k , u m ) ^ 0) e que os termos de erro r 0;fe e r ljfe tambem sejam correlacio- 
nados (co v(r 0jh r ljk ) * 0). 
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Modelagem 

Modelo Intermediario 

Rotina em SPSS 

Hierarquica 

Linear 

de Tres 

Niveis com 

Medidas 

Repetidas 

Modelo Nulo (Modelo 

Nao Condicional) 

MIXED Y 

/FIXED = INTERCEPT 

/RANDOM = INTERCEPT | SUBJECT(var_mvel2) 

/RANDOM = INTERCEPT | SUBJECT(var_mvel3) . 

Modelo de Tendencia Linear 
com Interceptos Aleatorios 

MIXED Y WITH t 

/FIXED = INTERCEPT t 

/RANDOM = INTERCEPT | SUBJECT(var_mvel2) 

/RANDOM = INTERCEPT | SUBJECT(var_mvel3) . 

Modelo de Tendencia Linear com 
Interceptos e Inclinaqoes Aleatorias 

MIXED Y WITH t 

/FIXED = INTERCEPT t 

/RANDOM = INTERCEPT t | SUBJECT(var_mvel2) 

/RANDOM = INTERCEPT t | SUBJECT(var_mvel3) . 

Modelo de Tendencia Linear com 
Interceptos e Inclinaqoes Aleatorias e 
Variavel de Nivel 2 

MIXED Y WITH t X 

/FIXED = INTERCEPT t X X*t 

/RANDOM = INTERCEPT t | SUBJECT(var_mvel2) 

/RANDOM = INTERCEPT t | SUBJECT(var_nivel3) . 

Modelo de Tendencia Linear com 
Interceptos e Inclina^oes Aleatorias e 
Variaveis de Niveis 2 e 3 

MIXED Y WITH t X W 

/FIXED = INTERCEPT t X W X*t W*t W*X*t 

/RANDOM = INTERCEPT t | SUBJECT(var_nfvel2) 

/RANDOM = INTERCEPT t | SUBJECT(var_mvel3) . 

Modelo de Tendencia Linear com 
Interceptos e Inclinagoes Aleatorias e 
Variaveis de Niveis 2 e 3 e Termos de 
Erro Correlacionados 

MIXED Y WITH t X W 

/FIXED = INTERCEPT t X W X*t W*t W*X*t 

/RANDOM = INTERCEPT t | SUBJECT(var_ 
mvel2) COVTYPE(UN) 

/RANDOM = INTERCEPT t | SUBJECT(var_ 
mvel3) COVTYPE(UN) . 


Not a: Considerada uma variavel X de nivel 2, uma variavel W de nivel 3 (quando houver) e t como variavel temporal. Alem disso, Y refere-se 
a variavel dependente. Em todos os comandos, considerada a estima^ao por maxima verossimilhan^a restrita (termo omitido /METHOD = 
REML). 


16.6. CONSIDERA^OES FINAIS 

Os modelos multimvel de regressao para dados em painel possibilitam que o pesquisador avalie a rela^ao entre 
determinada variavel de desempenho e uma ou mais variaveis preditoras que caracterizam diferentes niveis de 
analise, sendo cada nivel formado por individuos ou grupos aninhados em outros grupos e assim sucessivamen- 
te. Como variaveis de determinado grupo sao invariantes entre grupos ou individuos correspondentes a niveis 
inferiores que estejam aninhados aquele grupo, e natural que muitas pesquisas usem tais modelos, uma vez que 
muitas bases apresentam estruturas aninhadas de dados, como aquelas que trazem, simultaneamente, caracteristicas 
de estudantes e escolas, empresas e paises, municipios e estados da federafao ou imoveis e bairros, por exemplo. 

Muitas podem ser as caracteristicas das bases com estruturas aninhadas de dados, sendo as mais comuns aquelas 
com aninhamento absoluto em que ha a presenfa de dados agrupados ou de dados com medidas repetidas. Neste 
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capitulo, optamos por apresentar exemplos em que sao utilizadas bases para a estima^ao de modelos hierarqui- 
cos lineares de dois niveis com dados agrupados e de tres niveis com medidas repetidas. Entretanto, a partir dos 
quais, acreditamos que o pesquisador tenha condi^oes de estimar modelos, por exemplo, de tres niveis com dados 
agrupados ou ate mesmo considerando uma quantidade superior de niveis de analise, decorrentes de estruturas 
mais complexas de aninhamento. 

Os modelos multinivel permitem que sejam identificadas e analisadas as heterogeneidades individuals e entre 
grupos a que pertencem esses individuos, tornando possivel a especifica^o de componentes aleatorios em cada 
nivel da analise. E esse fato representa a principal diferen^a em rela^ao aos tradicionais modelos de regressao es- 
timados por MQO, que nao conseguem levar em considera^ao o aninhamento natural dos dados e, consequen- 
temente, geram estimadores viesados dos parametros. 

Embora muitos trabalhos fa^am uso de modelagens multinivel estimando apenas modelos nulos para a inves- 
tiga^ao da decomposi^ao de variancia do fenomeno em estudo nos diferentes niveis de analise, a possibilidade de 
inclusao de variaveis explicativas correspondentes aos distintos niveis nos componentes de efeitos fixos e aleato¬ 
rios permite que sejam investigadas eventuais relates entre essas variaveis e a variavel dependente, o que propicia 
a determina^ao de novos objetivos de pesquisa e o estabelecimento de constructos interessantes. 

Recentemente, e possivel perceber uma crescente preocupa^ao de fabricantes de softwares com rela^ao a 
capacidade de processamento de comandos e rotinas para a estima^ao de modelos multinivel mais complexos. 
Nao podemos deixar de mencionar o importante e didatico software HLM (Hierarchical Linear and Nonlinear 
Modeling), produzido pela Scientific Software International (SSI) e desenvolvido pelos professores Stephen 
Raudenbush (University of Michigan), Anthony Bryk (University of Chicago) e Richard Congdon (Harvard 
University). 

Para a estima^ao de modelos multinivel, e necessario, assim como para qualquer outra tecnica de modelagem, 
que a aplica^ao venha acompanhada de rigor metodologico e de certos cuidados na analise dos resultados, prin- 
cipalmente se estes tiverem como objetivo a elabora^ao de previsoes. A ado^ao de determinado metodo de esti- 
ma^ao, em detrimento de outro, pode auxiliar o pesquisador na escolha do modelo mais apropriado, valorizando 
a sua pesquisa e propiciando novos estudos sobre o tema escolhido. 

Neste capitulo, procuramos elaborar, por meio da utiliza^ao de diferentes bases, algumas modelagens impor- 
tantes para estruturas aninhadas de dados, adequadas para cada situa^ao de uso. Alem disso, tambem procuramos 
propiciar ao pesquisador uma oportunidade de aplicar esses diferentes tip os de estimates nos softwares Stata e 
SPSS, o que acaba por favorecer o seu manuseio. 

16.7. EXERCICIOS 

1) A organiza^ao de uma competi^ao internacional de ciencias para estudantes do ensino medio provenientes de 
24 paises (j = 1,..., 24) deseja investigar o comportamento do desempenho dos participantes em fun^ao de suas ca- 
racterfsticas e das caracteristicas dos paises de onde vieram. Embora os coordenadores do evento saibam que o de¬ 
sempenho e reflexo de diversos fatores, como dedicagao dos participantes e das proprias caracteristicas das escolas 
em que estudam, o desejo, neste momento, e tentar verificar se ha rela^ao entre as notas obtidas na competi^ao, o 
nivel social dos estudantes, traduzido pela renda media familiar, e a importancia dispensada pelos paises em quesitos 
como desenvolvimento cientifico e tecnologico, traduzida aqui pelo investimento em pesquisa e desenvolvimento. 
A base coletada, que contem dados dos cinco mais bem classificados estudantes de cada pais, o que totaliza 120 par¬ 
ticipantes na competi^ao (f = 1,..., 120) e gera uma estrutura equilibrada de dados agrupados, pode ser acessada por 
meio do arquivo Competi^ao de Ciencias.dta. As variaveis presentes nesta base sao: 


Variavel 

Descrifao 

pais 

Variavel string que identifica o pais. 

idpais 

Codigo do pais j. 

pesqdes 

Investimento do pais em pesquisa e desenvolvimento, em % do PIB (Fonte: Banco Mundial). 

idestudante 

Codigo do estudante i. 

nota 

Nota de ciencias obtida pelo estudante na competigao (0 a 100). 

renda 

Renda media mensal da familia do estudante (US$). 
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Por meio do uso desta base de dados, pede-se: 


a) Elabore uma tabela que comprove a existencia de uma estrutura equilibrada de dados agrupados de estu- 
dantes em paises. 

b) Elabore graficos que permitam a visualiza^ao da nota media obtida na competi^ao de ciencias pelos par- 
ticipantes de cada pais. 

c) Dada existencia de dois niveis de analise, com estudantes (nivel 1) aninhados em paises (nivel 2), estime o 
seguinte modelo nulo: 


que resulta em: 


notay =b 0J +ry 

k)j -yoo +u o j 


notay = y 0 o + uqj + r t j 


d) Por meio da estima^ao do modelo nulo, e possivel verificar que existe variabilidade da nota obtida entre 
estudantes provenientes de diferentes paises? 

e) A partir do resultado do teste de razao de verossimilhan^a gerado, e possivel rejeitar a hipotese nula de que 
os interceptos aleatorios sejam iguais a zero, ou seja, e possivel descartar a estima^ao de um modelo tradi- 
cional de regressao linear para estes dados agrupados? 

f) Ainda com base na estima^ao do modelo nulo, calcule a correla^ao intraclasse e discuta o resultado. 

g) Elabore um grafico que apresente o ajuste linear por MQO, para cada pais, do comportamento da nota de 
ciencias de cada estudante em fun^ao da renda media mensal familiar. 

h) Estime o seguinte modelo com interceptos aleatorios: 

notay = b$j '+ .renday + ry 

b Qj -yoo +u oj 
hj=y\o 

que resulta em: 

notciy = y 00 + y l0 .renday +u QJ +ry 


i) Discuta a significance estatistica, ao nivel de 5% de significance, das estimates dos parametros de efeitos 
fixos e aleatorios. 

j) Elabore um grafico de barras que permita a visualiza^ao dos termos de intercepto aleatorio u 0 j por pais. 

k) Estime o seguinte modelo com interceptos e inclina^oes aleatorias: 

notciy -b^y +i\j.renddy +ry 

b oj=roo +u oj 
b\j =y\o+ u \j 

que resulta em: 

notay =y 00 + y l0 .renda ij +u 0j +u lj .renda ij +ry 

l) Com base nas estmiacoes do modelo com interceptos aleatorios e do modelo com interceptos e inclina- 
<poes aleatorias, elabore um teste de razao de verossimilhan^a e discuta o resultado. 

m) Estime o seguinte modelo multinivel: 

notay = b Qj + b\j .renday +ry 
b 0j =Yoo+ u Oj 
b \j=y\ 0 + Y\\-P es( l des j 

que resulta em: 

notay = yoo +710 Monday + ft \ .pesqdesj. renday +Uqj + ry 
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n) Apresente a expressao do ultimo modelo estimado, com interceptos aleatorios e variaveis de mveis 1 e 2. 

o) Elabore um grafico em que seja possivel comparar os valores previstos da nota obtida na competigao de 
ciencias gerados por esta modelagem hierarquica de dois niveis (HLM2) com os valores reais obtidos (va¬ 
lores observados) pelos estudantes da amostra. 

2) Uma empresa de locagao de escritorios comerciais possui uma carteira de 277 imoveis em determinado mu- 
nicipio, e sua diretoria deseja saber se existem diferengas nos pregos de aluguel por metro quadrado entre imoveis 
e tambem nos pregos medios de aluguel dos imoveis entre diferentes distritos, ao longo do tempo. Para tanto, a 
equipe de marketing estruturou a base de dados, que se encontra no arquivo Imoveis Comerciais.dta, com ca- 
racteristicas desses 277 escritorios ja locados (j = 1,277), cujos pregos firmados de locagao foram monitorados 
ao longo dos ultimos seis anos (t = 1,..., 6), e dos 15 distritos municipais (k = 1,..., 15) em que se localizam os 
imoveis. As variaveis presentes nesta base sao: 


Variavel 

Descri^ao 

distrito 

Codigo do distrito k. 

imovel 

Codigo do imovel j. 

Inp 

Logaritmo natural do prego de aluguel por metro quadrado (ajustado pela inflagao, base ano 1). 

ano 

Variavel temporal (medida repetida) correspondente ao periodo de monitoramento (ano 1 a 6). 

alim 

Existencia de restaurante ou praga de alimentagao no empreendimento em que se encontra o imovel 
(Nao = 0; Sim = 1). 

vaga4 

Existencia de uma quantidade de vagas de estacionamento maior ou igual a quatro (Nao = 0; Sim = 1). 

valet 

Existencia de valet park no edificio do escritorio (Nao = 0; Sim = 1). 

metro 

Existencia de estagao de metro no distrito onde esta localizado o imovel (Nao == 0; Sim — 1). 

violencia 

Taxa media de mortalidade por causas externas no distrito onde esta localizado o imovel (por cem mil 
habitantes). 


Essa base de dados, em que periodos (nivel 1) estao aninhados em imoveis (nivel 2), e esses em distritos 
(nivel 3), esta estruturada conforme a logica apresentada na figura a seguir: 


t= i 


t=2 


Tempo 

t= 6 (Nivel 1 - Medida Repetida) 


-► ln(p) 


r 




Distritos 

(Nivel 3) x Distrio2 


V 


Distrito 15 


Im6vel 1 Im6vel 2 Imovel 15 


IS 

Im6vel 1 Im6vel 2 Im6vel 206 




ImOvel 1 ImOvel 2 ImOvel 23 


li 


Im6vel 1 Imovel 2 Imovel 15 


H 


Im6vel 1 Im6vel 2 Im6vel 206 



Im6vel 1 Im6vel 2 Imdvel 23 




Im6vel 1 Im6vel 2 Im6vel 15 


IS 


Im6vel 1 Im6vel 2 Im6vel 206 




IIR 

Im6vel 1 Im6vel 2 Imovel 23 


Imoveis 
(Nivel 2) 


Pede-se: 

a) Elabore uma tabela que comprove a existencia de uma estrutura desequilibrada de dados agrupados de 
imoveis em distritos. 

b) Elabore uma tabela que comprove a existencia de um painel desbalanceado de dados em relagao aos peri¬ 
odos de monitoramento dos imoveis. 
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c) Elabore um grafico que permita que seja visualizada a evolu^ao temporal do logaritmo natural do pre^o 
de aluguel por metro quadrado dos imoveis em analise. 

d) Elabore um grafico que permita que se verifique a existencia de um comportamento aproximadamente 
linear da media do logaritmo natural do pre^o de aluguel por metro quadrado dos imoveis ao longo dos 
periodos de tempo. 

e) Elabore um grafico que apresente, por distrito municipal, as evolu^oes temporais das medias dos logarit- 
mos naturais dos pre^os de aluguel por metro quadrado dos imoveis (ajustes lineares por MQO). 

f) Dada existencia de tres niveis de analise, com medidas repetidas (nivel 1) aninhadas a imoveis (nivel 2), e 
estes aninhados a distritos municipal (nivel 3), estime o seguinte modelo nulo: 

=7r o jk + e tjk 
K 0jk =b 00k +r 0jk 
hook = 7ooo +u 00 k 

que resulta em: 

111 {p\jk ~ ^000 + u 00k + r 0 jk + e tjk 

g) Com base na estima^ao do modelo nulo, calcule as correlates intraclasse de niveis 2 e 3 e discuta os re- 
sultados. 

h) Ainda por meio da estima^ao do modelo nulo, e possivel afirmar que ha variabilidade no prego de aluguel 
dos imoveis comerciais ao longo do periodo analisado e que ha variabilidade no pre^o de aluguel, ao lon¬ 
go do tempo, entre imoveis de um mesmo distrito e entre imoveis localizados em distritos diferentes? 

i) A partir do resultado do teste de razao de verossimilhan^a gerado, e possivel rejeitar a hipotese nula de que 
os interceptos aleatorios sejam iguais a zero, ou seja, e possivel descartar a estima^ao de um modelo tradi- 
cional de regressao linear para estes dados? 

j) Estime o seguinte modelo de tendencia linear com interceptos aleatorios: 

111 ( p \jk = *0 jk +7r l jk- ano jk +e tjk 

n 0jk =b 00k +r 0jk 

n \jk = bl0k 

b 00k ~ 7000 +u 00k 

h\0k = ftOO 

que resulta na seguinte expressao: 

^{p\jk = 7ooo+y\oo- an °jk + u ook +r ojk +e tjk 

k) Discuta a significancia estatistica, ao nivel de 5% de significancia, das estimates dos parametros de efeitos 
fixos e aleatorios. 

l) Elabore dois graficos de barras que permitam a visualiza^ao dos interceptos aleatorios por distrito e por 
imovel. 

m) Estime o seguinte modelo de tendencia linear com interceptos e inclina^oes aleatorias: 

ln (p ) tjk = *0 jk + K \ jk - ano jk + e tjk 

n 0jk =hook +r Ojk 
% \jk ~h\0k + r \jk 
hook ~ 7000 +u 00k 
ho k =7\00 +u \0k 
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que resulta em: 

^{p) t jk = 7000 +ym- an °jk +M 00 k +M 10 k- ano jk +r 0 jk +r \jk- ano jk +e tjk 

n) Calcule as novas correlates intraclasse de niveis 2 e 3 e discuta os resultados. 

o) Elabore um teste de razao de verossimilhan^a para comparar as estima^oes dos modelos de tendencia linear 
com interceptos aleatorios e com interceptos e inclina^oes aleatorias. 

p) Estime o seguinte modelo de tendencia linear com interceptos e inclina^oes aleatorias e variaveis de rnvel 2: 

ln (P ) tjk = jk + n \ jk- ano jk + e tjk 

K 0jk - b (K)k + b 0lk- alim jk + b 02k- va S a4 jk +r 0jk 

K \jk = b lOk +b Uk- vaiet jk +r \jk 

b 00k = 7000 +u 00k 

b 01k = 7010 

b 02k = 7020 

hok = ym +u \ok 

fe Ll£=7ll0 

que resulta na seguinte expressao: 

ln ( p Xjk = WOO + 7100 - ano jk +7010 ■alim jk + 7 02 o -vaga4 jk +y no .valet jk .ano jk 
+ M 00 k + M 10 k - ano jk + r 0 jk + r \ jk - ano jk + e tjk 

q) Apresente a expressao do ultimo modelo estimado, com medidas repetidas, interceptos e inclina^oes alea¬ 
torias e variaveis de nivel 2. 

r) Por meio deste modelo, e possivel afirmar que o logaritmo natural do pre^o de aluguel por metro quadra- 
do dos imoveis segue uma tendencia linear ao longo do tempo, existindo variancia significativa de inter¬ 
ceptos e de inclina^oes entre aqueles localizados no mesmo distrito e entre aqueles localizados em distritos 
distintos? Em caso afirmativo, a existencia de restaurante ou pra$a de alimenta^ao no empreendimento, a 
existencia de uma quantidade de vagas de estacionamento maior ou igual a quatro e a existencia de valet 
park no edificio onde esta o imovel explicam parte dessa variabilidade? 

s) Estime o seguinte modelo de tendencia linear com interceptos e inclina^oes aleatorias e variaveis de m- 
veis 2 e 3: 


^ ( P \j k ^0 jk K \ jk * ano jk e tjk 

^0 jk ~ b()0k “^01 k‘ cdiwijk &02k • va S a ^jk + r 0 jk 

K\jk =hok +b Uk- valet jk + r ljk 

b 00k = 7000 + 7001 ■ t netr6 k +u 0ok 

b 0lk =7010 

b 02k ~ 7020 

b[0k =7ioo +ym-metrd k +y m .violencia k +u i0k 
h\k =7no 

que resulta na seguinte expressao: 

Xn (p\jk =ym+mo- ano jk+ym- alim jk+ym- va g a4 jk +ym- metr °k 

+ ;’| jo .valetj k .anoj k + y^.metrd k .anOj k + }'i 02 -violencia^ .anoj k 
+ u ()Qk +u l0k .anOj k +r 0ljk + r x jk .ano jk + e tjk 
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t) Apresente as matrizes de variancia-covariancia dos efeitos aleatorios para os niveis distrito e imdvel. 

u) Estime o mesmo modelo de tendencia linear com interceptos e inclina^oes aleatorias e variaveis de niveis 
2 e 3, porem agora considerando termos aleatorios ( u 00k) u 10k ) e (r 0jh ry^) correlacionados. 

v) Apresente as novas matrizes de variancia-covariancia dos efeitos aleatorios para os niveis distrito e imovel. 

w) Elabore um teste de razao de verossimilhan^a para comparar as estimates dos modelos com termos alea¬ 
torios ( u 00k , u 10fe ) e ( r 0 j k , Yy^j independentes e correlacionados. O que se pode concluir com base no resul- 
tado do teste? 

x) Qual a expressao final do modelo multinivel estimado? 

y) E possivel afirmar que a existencia de metro e o indicador de violencia no distrito explicam parte da va- 
riabilidade da evolu^ao do logaritmo natural do pre^o de aluguel por metro quadrado entre imoveis loca- 
lizados em diferentes distritos? 

z) Elabore um grafico em que seja possivel comparar os valores previstos do logaritmo natural do pre^o de 
aluguel por metro quadrado gerados por esta modelagem hierarquica de tres niveis (HLM3) com aque- 
les gerados por meio de uma estima^ao por MQO que faz uso das mesmas variaveis explicativas do mo¬ 
delo do item (x) inseridas no componente de efeitos fixos (ano, alim, vaga4, metro , valet*ano , metro*ano e 
violencia*ano), e com os valores reais observados do logaritmo natural do pre^o de aluguel por metro qua¬ 
drado dos imoveis. 
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APENDICE 


Modelos hierarquicos nao lineares 


Conforme discutimos, os modelos lineares generalizados multinivel {generalized linear latent and mixed models 
- GLLAMM ), analogamente aos modelos lineares generalizados {GLM), comportam os modelos hierarquicos 
lineares (. HLM ), estudados ao longo do capitulo, e os modelos hierarquicos nao lineares {hierarchical non li¬ 
near models - HNM ). Estes ultimos, por sua vez, referem-se a situagoes em que, existindo uma estrutura aninhada 
de dados, a variavel dependente apresenta-se de maneira categorica ou com dados de contagem, razao pela qual 
optamos por apresentar, no presente apendice, exemplos de modelos hierarquicos nao lineares dos tipos logisti- 
co, Poisson e binomial negativo. A Figura 16.53 apresenta a logica dos modelos lineares generalizados multinivel, 
com destaque para os modelos que serao estudados a partir de agora. 



Figura 16.53 Modelos lineares generalizados multinivel, 
com destaque para os modelos hierarquicos nao lineares. 


A) Modelos Hierarquicos Logisticos 

De maneira analoga ao estudado no Capitulo 13 e na se^ao 15.4.1 do Capitulo 15, os modelos de regres¬ 
sao logistica com efeitos mistos podem ser utilizados quando a variavel dependente apresentar-se de maneira 
qualitativa e dicotomica e os dados estiverem dispostos em determinada estrutura aninhada (em niveis),podendo 
haver dados agrupados ou com medidas repetidas. Nessas situates, o pesquisador pode estimar um modelo com 
o intuito de capturar a rela^ao entre o comportamento de variaveis explicativas e a ocorrencia do fenomeno em 
estudo, representado por uma variavel dicotomica {dummy), bem como estudar a decomposi^ao de variancia dos 
componentes de efeitos aleatorios decorrentes da presen^a de uma estrutura multinivel. 

Nesta se^ao, apresentaremos um modelo hierarquico logistico de dois niveis com dados agrupados. De ma¬ 
neira geral, e partindo das expressoes (13.10) e (16.23), podemos definir, da seguinte maneira, este modelo com 
dois niveis de analise, em que o primeiro nivel oferece as variaveis explicativas X a ,..., X Q referentes a cada indi- 
viduo i {i = 1,...,«), e o segundo nivel, as variaveis explicativas W l9 ..., W s referentes a cada grupo j (j = 1, ...,J), 
invariantes para as observa^oes pertencentes a um mesmo grupo: 
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= __1_ 

Nivel 1: ^ i + e ~( b o j - X »J +b 2 j - X 2 ij +- +6 <y ) (16.45) 

em que p { j representa a probabilidade de ocorrencia do evento de interesse para cada observa^ao i pertencente a 
determinado grupo j e b • (q = 0,1,Q) referem-se aos coeficientes de nivel 1. 

Nivel 2: + + u qj (16.46) 

s-1 

em que y qs (s = 0,1,S ? ) referem-se aos coeficientes de nivel 2 e sao os efeitos aleatorios de nivel 2, normal- 
mente distribuidos, com media igual a zero e variancia T qq . Alem disso, eventuais termos de erro independentes 
de Uqj apresentam media igual a zero e variancia 7C 2 /3. 

Vamos, neste momento, apresentar um exemplo. Uma pesquisa foi elaborada em nivel global com o intuito 
de investigar se existem diferen^as na realiza^ao de viagens internacionais de turismo entre casais residentes em 
diferentes paises. Para tanto, coletaram-se dados de 1.622 casais localizados em 50 paises, como a idade media do 
casal e a quantidade de filhos. Parte do banco de dados elaborado e apresentada naTabela 16.5, porem a base de 
dados completa pode ser acessada por meio do arquivo Turismo.dta. 


Tabela 16.5 Exemplo: realizagao de viagens internacionais de casais (nivel 1) 
residentes em diferentes paises (nivel 2). 


Observa^ao 
(Casal i - 
Nivel 1) 

Pais j em que 
o casal mora 
(Nivel 2) 

Realizou viagem 
internacional de turismo 
no ultimo ano (V^) 

Idade media do 
casal (X liy ) 

Quantidade 
de filhos (X 2ij ) 

1 

Franca 

Sim 

68 

2 

2 

Franca 

Sim 

37 

0 


117 

Franca 

Sim 

54 

3 


1.604 

Egito 

Nao 

55 

2 

1.605 

Egito 

Nao 

51 

2 


1.622 

Egito 

Sim 

39 

0 


Apos abrirmos esse arquivo, podemos digitar o comando desc, que faz com que seja possivel analisarmos as 
caracteristicas do banco de dados, como a quantidade de observances, a quantidade de variaveis e a descri^ao de 
cada uma delas. A Figura 16.54 apresenta este output do Stata. 


. desc 





obs: 

1,622 




vars: 

4 




size: 

42,172 





storage 

display 

value 


variable name 

type 

format 

label 

variable label 

pais 

strl4 

%14s 


pais j em que o casal mora (nivel 2) 

turismo 

float 

%9.0g 

turismo 

realizou viagem internacional de turismo 
no ultimo ano? 

idade 

float 

%9.0g 


idade media do casal (anos) 

filhos 

float 

%9.0g 


quantidade de filhos 

| Sorted by: j 


Figura 16.54 Descri<;ao do banco de dados Turismo.dta. 
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Como o intuito neste apendice nao eo de discutir novamente os conceitos abordados ao longo do capitulo, 
vamos partir para a estima^ao seguinte: 


p {turismo).. =■ 


1 


1 + e ~( b 0J +b 'l - idade » +b U -fi lhoS ij ) 


t>o j = yoo +u 0j 
hj=Y\ o 

b 2j =^20 


que resulta no modelo com interceptos aleatorios: 


P 


( turismo ).. 


_ 1 _ 

1 + g“(^oo +r,o -idade..+y 20 .filhos v +u 0j ) 


sendo a variavel turismo dicotomica (dummy), em que valores iguais a 1 correspondem a casais que realizaram via- 
gens internacionais de turismo no ultimo ano e valores iguais a 0, caso contrario. 

Para a estimagao deste modelo no Stata, devemos digitar o seguinte comando: 

melogit turismo idade filhos || pais: , nolog 8 

cujos outputs sao apresentados na Figura 16.55. 


. melogit turismo idade filhos || pais: 

, nolog 




Mixed-effects logistic regression 


Number 

of obs = 

1622 

Group variable: pais 


Number 

of groups = 

50 



Obs per group: min = 

2 




avg = 

32.4 




max = 

118 

Integration points = 7 


Wald chi2(2) = 

52.18 

Log likelihood = -1038.1176 


Prob > 

chi2 = 

0.0000 

turismo | Coef. Std. Err. 

z 

P>l*l 

[95% Conf. 

Interval] 

idade | .0150543 .0066673 

2.26 

0.024 

.0019866 

.0281221 

filhos | -.4239421 .0598524 

-7.08 

0.000 

-.5412507 

-.3066335 

cons | .4393716 .2954913 

1.49 

0.137 

-.1397806 

1.018524 


| Random-effects Parameters | Estimate Std. Err. 

[95% Conf. 

Interval] 

II pais: Identity | 





| var(_cons) | .2551956 .0880873 

.1297356 

.5019808 

| LR test vs. logistic regression: chibar2(01) = 

52.82 Prob>=chibar2 

= 0.0000 


Figura 16.55 Outputs do modelo hierarquico logistico com interceptos aleatorios no Stata. 


Com base nessa figura, podemos inicialmente verificar que temos 1.622 observa^oes (casais) aninhadas em 50 
grupos (paises), o que caracteriza a estrutura de dados agrupados em dois mveis. 

Um pesquisador mais curioso podera verificar que as estimates dos parametros dos componentes de efeitos 
fixos e aleatorios sao identicas as que seriam obtidas por meio do seguinte comando: 

meglm turismo idade filhos || pais: , family(bernoulli) link(logit) nolog 


8 Para versoes ante riores a versao 13 do Stata, o comando devera ser xtme logit turismo idade filhos || pais: , var 
nolog. 
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em que o termo meglm significa multilevel mixed-effects generalized linear model e que, portanto, torna necessaria a 
defini^ao da familia de distributees da variavel dependente que, neste caso, e a Bernoulli, e da fun^ao de liga^ao 
canonica que, nesta situa^ao, e a logistica 9 . 

Alem disso, tambem podem ser diretamente obtidas as odds ratios dos parametros de efeitos fixos, digitando-se 
o termo or (odds ratio) ao final dos comandos apresentados. 

Dado que os termos de erro independentes de u^ apresentam variancia igual 7l 2 /3, podemos definir a seguinte 
correla^ao intraclasse: 


rho = 


T 00 

7t 2 

T 00 + ~^“ 


0,255 

7l 2 

0,255 + — 
3 


= 0,072 


que indica que aproximadamente 7% da variancia total dos termos de erro e devido a altera^ao do comporta- 
mento da variavel dependente entre paises. A partir da versao 13 do Stata, e possivel obter diretamente esta cor- 
rela^ao intraclasse, digitando-se o comando estat icc logo apos a estima^ao do correspondente modelo. 

Embora o Stata nao mostre, de maneira direta, o resultado dos testes ar com os respectivos niveis de significan- 
cia para os parametros de efeitos aleatorios, o fato de a estima^ao do componente de variancia T 00 , corresponden¬ 
te ao intercepto aleatorio u 0j -, ser consideravelmente superior ao seu erro-padrao indica haver alteragao significan- 
te no comportamento de casais residentes em diferentes paises em rela^ao a realiza^ao de viagens internacionais 
de turismo. Estatisticamente, podemos verificar que z = 0,255 / 0,088 = 2,90 > 1,96, sendo 1,96 o valor critico 
da distribuigao normal padrao que resulta em um nivel de significance de 5%. 

Mesmo que nao tenham sido consideradas variaveis de paises que podem eventualmente explicar tal com¬ 
portamento, como caracteristicas culturais, economicas ou sociais, temos condi^oes de verificar que, enquanto o 
incremento de idade aumenta a probabilidade esperada de que casais passem a realizar viagens internacionais de 
turismo, ceteris paribus , a realiza^ao dessas viagens diminui com o incremento da quantidade de filhos, tambem 
ceteris paribus. O modelo estimado apresenta a seguinte expressao: 


p (turismo).j 


_ 1 _ 

1 + ^-(0,439+0,015./^^.. —0,-424.^ filhos v +u 0j ) 


Na parte inferior da Figura 16.55, podemos verificar, pelo resultado do teste de razao de verossimilhan^a, que 
a estima^ao deste modelo multinivel e mais adequada do que a estimagao de um modelo tradicional de regressao 
logistica binaria para os dados do nosso exemplo. 

Portanto, podemos obter os valores das probabilidades esperadas de ocorrencia do evento em estudo (reali- 
za^ao de viagem internacional de turismo) para cada um dos casais da amostra. Para tanto, devemos digitar o se¬ 
guinte comando, que gera uma nova variavel (phat) no banco de dados: 

predict phat 

Alem disso, tambem podemos obter os termos de erro u 0j , invariantes para casais de um mesmo pais. Para tan¬ 
to, devemos digitar o seguinte comando: 

predict uO, remeans 

que faz com que nova variavel, uO , tambem seja gerada no banco de dados. 

O comando a seguir, que gera os outputs da Figura 16.56, mostra os valores de phat e os termos de erro uO 
apenas para os casais residentes no Brasil: 

list pais turismo phat uO if pais == "Brasil" 


9 Se o pesquisador optar por estimar um modelo hierarquico nao linear do tipo probit, cuja distribui^ao da variavel dependente tambem 
e a Bernoulli, conforme estudamos no apendice do Capitulo 13, podera usar um dos dois comandos a seguir: 

meprobit turismo idade filhos || pais: , nolog 

meglm turismo idade filhos || pais: , family(bernoulli) link(probit) nolog 
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. list 

pais turismo phat uO 

if pais == 

"Brasil' 


| pais 

turismo 

phat 

uO 

1 

1198. 

| Brasil 

Sim 

6316937 

.1049601 

1 

1199. 

j Brasil 

Nao 

.491252 

.1049601 

1 

1200. 

j Brasil 

Sim 

7533196 

.1049601 

1 

1201. 

j Brasil 

Sim 

.747682 

.1049601 

1 

1202. 

j Brasil 

Sim 

4950149 

.1049601 

1 

1203. 

j Brasil 

Nao 

.491252 

.1049601 

1 

1204. 

j Brasil 

Nao 

4874901 

.1049601 

1 

1205. 

j Brasil 

Sim 

.717749 

.1049601 

1 

1206. 

j Brasil 

Sim 

.6659743 

.1049601 

1 

1207. 

j Brasil 

Sim 

.6068546 

.1049601 

1 

1208. 

j Brasil 

Nao 

.6068546 

.1049601 

1 

1209. 

j Brasil 

Sim 

.6032571 

.1049601 

1 

1210. 

j Brasil 

Sim 

.6175761 

.1049601 

1 

1211. 

j Brasil 

Sim 

.6495774 

.1049601 

1 

1212. 

| Brasil 

Sim 

.6731711 

.1049601 

1 

1213. 

j Brasil 

Nao 

.7207888 

.1049601 

1 

1214. 

j Brasil 

Nao 

.6862789 

.1049601 

1 


+- 




-+ 


Figura 16.56 Probabilidades esperadas de realizagao de viagem internacional de turismo 
e termos de erro u 0j para casais residentes no Brasil (j = Brasil). 


Apenas para fins didaticos, o pesquisador podera verificar que a variavel phat tambem pode ser gerada por 
meio da seguinte expressao: 

gen phat = (1) / (1 + exp(-(0.4393717 + 0.0150543*idade - 
0.4239421*filhos + uO))) 

Por fim,podemos elaborar um grafico que mostra, em fun^ao da variavel filhos, os ajustes das curvas S (fun^oes 
sigmoides) das probabilidades esperadas de que casais residentes em cinco especificos paises, escolhidos em fun- 
$ao de suas localiza^oes distintas no globo, realizem viagens internacionais de turismo. Este grafico, apresentado 
na Figura 16.57, e obtido por meio da digita^ao do seguinte comando: 

graph twoway scatter phat filhos || mspline phat filhos if 
pais==”Franga” || mspline phat filhos if pais==”Estados Unidos' 1 || mspline 
phat filhos if pais=="Japao” | | mspline phat filhos if pais=="Africa 
do Sul” || mspline phat filhos if pais==”Venezuela” ||, legend(label(2 
"Franga”) label(3 ”Estados Unidos”) label(4 ”Japao”) label(5 "Africa do 
Sul”) label(6 "Venezuela”)) 


r 



Quantidade de filhos 


° Predicted mean - Franga -Estados Unidos 

. Japao - Africa do Sul -Venezuela 

V_ 


Figura 16.57 Ajustes das probabilidades esperadas de que casais residentes em cinco paises 
realizem viagens internacionais de turismo, em fungao da quantidade de filhos. 
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Por meio deste grafico, temos condi^oes, de fato, de visualizar os comportamentos distintos entre casais pro- 
venientes de paises diferentes em rela^ao a realiza^ao de viagens internacionais de turismo. 

B) Modelos Hierarquicos para Dados de Contagem 

Analogamente ao estudado no Capitulo 14 e na se^ao 15.4.2 do Capitulo 15, os modelos de regressao pa¬ 
ra dados de contagem com efeitos mistos podem ser utilizados quando a variavel dependente apresentar-se 
na forma quantitativa, porem com valores discretos e nao negativos, e os dados estiverem dispostos em determi- 
nada estrutura aninhada (em niveis), podendo haver dados agrupados ou com medidas repetidas. 

Nesta se^ao, apresentaremos um modelo hierarquico para dados de contagem com tres niveis e dados agru¬ 
pados. De maneira geral, e partindo-se das expressoes (14.4), (16.30) e (16.31), podemos definir, da seguinte ma- 
neira, este modelo de tres niveis, em que o primeiro nivel apresenta as variaveis explicativas Z 1? ..., Z p referentes 
as unidades i (i = 1, ..., n) de nivel 1, o segundo nivel, as variaveis explicativas X u ..., Xq referentes as unidades 
j (j = 1, ...,J) de nivel 2 e invariantes paras as unidades pertencentes a um mesmo grupo j, e o terceiro nivel, as 
variaveis explicativas W lf ..., W s referentes as unidades k (k = 1,..., K) de nivel 3 e invariantes para as unidades 
pertencentes a um mesmo grupo k : 

Nivel 1: In (^ijk ) = jk + K \jk- Z l jk + jk- Z 2jk + - + ^Pjk^Pjk (16.47) 

em que leo numero esperado de ocorrencias ou a taxa media estimada de incidencia do fenomeno em estudo 
para dada exposi^ao, 7T pjk (p — 0,1,..., P) referem-se aos coeficientes de nivel 1 e Z pjk e umap-esima variavel ex- 
plicativa de nivel 1 para a observa^ao i na unidade de nivel 2 j e na unidade de nivel 3 k. 

Q P 

Nivel 2: ^pjk ~ ^pOk + ^pqk-^qjk + r pjk (16.48) 

q =i 


em que b pqk (q = 0, 1, ..., Q p ) referem-se aos coeficientes de nivel 2, X e uma q-e sima variavel explicativa de 
nivel 2 para a unidade j na unidade de nivel 3 k, e r pjk sao os efeitos aleatorios do nivel 2, assumindo-se, para cada 
unidade j, que o vetor (r 0 j k , ry k , ..., r P ^ k )' apresenta distribui^ao normal multivariada com cada elemento possuindo 
media zero e variancia T rKpp . 

S » 

Nivel 3: ^pqk = ^pq0^~ V pqs * ^sk u pqk (16.49) 

^=1 


em que y (s = 0, 1, ..., S pq ) referem-se aos coeficientes de nivel 3, W sk e uma 5-esima variavel explicativa de 
nivel 3 para a unidade k, e u pqk sao os efeitos aleatorios do nivel 3, assumindo-se que para cada unidade fe, o ve¬ 
tor composto pelos termos u pqk apresenta distribui^ao normal multivariada com cada elemento possuindo media 
zero e variancia T unpp . 

Imagine que tenha sido realizada uma pesquisa nacional com o objetivo de estudar, no ultimo ano, a rela^ao 
entre a quantidade de acidentes de transito e a quantidade media de alcool ingerida por habitante/dia (em gra¬ 
mas) em diversos distritos municipais localizados em todo o territorio nacional, bem como se existem diferen^as 
nessa rela^ao entre distritos situados em diferentes municipios e diferentes estados da federa^ao. Para tanto, foram 
pesquisados dados de 1.062 distritos municipais localizados em 234 municipios das 27 unidades federativas (26 
estados e Distrito Federal). Parte do banco de dados elaborado e apresentada naTabela 16.6, porem a base de da¬ 
dos completa pode ser acessada por meio do arquivo Acidentes de Transito.dta. 
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Tabela 16.6 Exemplo: acidentes de transito em distritos municipals (nfvel 1) 
de diferentes municipios (nfvel 2) e diferentes estados (nfvel 3). 


Estado k 
(Nivel 3) 

Municipio j 
(Nivel 2) 

Distrito 
municipal i 
(Nivel 1) 

Quantidade de acidentes 
de transito no ultimo 
ano (Y ijk ) 

Quantidade media de alcool 
ingerida por habitante/dia, 
em gramas ( Z jk ) 

AC 

1 

1 

9 

12,57 

AC 

2 

2 

10 

13,36 


AC 

3 

11 

2 

12,33 


TO 

231 

1.052 

2 

11,94 

TO 

231 

1.053 

3 

10,54 


TO 

234 

1.062 

5 

11,74 


A Figura 16.58 apresenta o output do Stata gerado ao digitarmos o comando desc. 


. desc 





obs: 
vars: 
size: 

1,062 

5 

11,682 




variable name 

storage 

type 

display 

format 

value 

label 

variable label 

estado 

municipio 

distrito 

acidentes 

alcool 

str2 

int 

int 

byte 

float 

%2s 
%8.0g 
%8. Og 
%8.0g 

%9.2f 


estado k (nivel 3) 
municipio j (nivel 2) 
distrito municipal i (nivel 1) 
ouantidade de acidentes de transito no 
aistrito no ultimo ano 

quantidade media de alcool ingerida por 
habitante/dia no distrito (em gramas) 

|| Sorted by: j 


Figure 16.58 Descrigao do banco de dados Acidentes deTransito.dta. 


Seguindo a logica apresentada no Capitulo 14, vamos inicialmente elaborar o histograma da variavel acidentes , 
que sera a variavel dependente do modelo a ser proposto. Para tanto, devemos digitar o seguinte comando, que 
gera o histograma da Figura 16.59. 

hist acidentes, discrete freq 



Figure 16.59 Histograma da variavel dependente acidentes. 
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Conforme estudamos no Capitulo 14, e interessante que o pesquisador avalie se a media e a variancia da vari¬ 
avel dependente sao iguais, ou ao menos proximas, antes da elabora^ao de qualquer estima^ao que envolva dados 
de contagem, a fim de que seja possivel ter uma ideia acerca da adequa^ao da estima^ao do modelo Poisson ou 
se sera necessaria a estima^ao de um modelo binomial negativo. A digita^ao do seguinte comando permitira que 
este diagnostico preliminar seja elaborado, cujos resultados sao apresentados na Figura 16.60: 

tabstat acidentes, stats(mean var) 


. tabstat acidentes, stats(mean var) 

variable | mean variance 

- + - 

acidentes | 3.812618 15.24007 

Figura 16.60 Media e variancia da variavel dependente acidentes. 

Mesmo que a variancia da variavel acidentes seja bem maior do que sua media, o que indica a existencia de su- 
perdispersao nos dados, vamos inicialmente, para fins didaticos, estimar um modelo Poisson. Na modelagem 
da quantidade de acidentes de transito, embora uma possibilidade seja a inclusao, no componente de efeitos fixos, 
de variaveis dummy que representem municipios e estados, vamos trata-los como efeitos aleatorios e estimar um 
modelo de regressao multimvel do tipo Poisson com tres niveis e interceptos aleatorios. Alem disso, a de- 
fini<~ao da existencia de superdispersao nos dados, que indica uma melhor adequa^ao do modelo de regressao 
multimvel do tipo binomial negativo em rela^ao ao modelo Poisson, sera elaborada na sequencia, por meio 
de um teste de razao de verossimilhan^a. 

Vamos, portanto, partir para a seguinte estima^ao: 

In {acidentesijk ^ jfc -i - 7C\jfc.alcooljk 
K 0jk =b 00k +r 0jk 

K \jk =Ao k 
b 00k ~ yOOO +u 00k 
ho k = 7100 

que resulta no modelo com interceptos aleatorios: 

In (acidentes ijk ) = y 0 oo + 7l 00 -alcool jk +u 00k +r 0Jk 

em que a variavel acidentes representa o fenomeno em estudo, apresentando-se na forma quantitativa e apenas 
com valores nao negativos e discretos (dados de contagem), indicando a incidencia de acidentes de transito no 
ultimo ano no distrito municipal i localizado no municipio j do estado k. 

Para a estima^ao no Stata do modelo proposto, devemos digitar o seguinte comando: 

mepoisson acidentes alcool || estado: || municipio: , nolog 10 

em que a logica de insergao dos diferentes niveis obedece ao mesmo criterio de aninhamento discutido ao longo 
do capitulo, ou seja, do maior para o menor nivel, sendo os niveis separados pelos termos | |. Os outputs gerados 
sao apresentados na Figura 16.61. 


10 Para versoes anteriores a versao 13 do Stata, o comando devera ser xtmepoisson acidentes alcool | | estado: | | munici- 
pio: , var nolog. 
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. mepoisson acidentes alcool || estado: || municipio: , nolog 

Mixed-effects Poisson regression Number of obs = 1062 


1 

No. of 

Observations per Group 

Group Variable | 

Groups 

Minimum 

Average 

Maximum 

estado | 

27 

1 

39.3 

95 

municipio | 

235 

1 

4.5 

13 


Integration method: mvaghermite Integration points = 7 

Wald chi2(1) = 5.60 

Log likelihood = -2295.9047 Prob > chi2 = 0.0180 


acidentes | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

alcool | 
_cons | 

.0478279 

.7293659 

.020216 

.2638594 

2.37 

2.76 

0.018 

0.006 

.0082053 

.2122111 

.0874506 

1.246521 

estado | 

var(_cons)| 

.3857761 

.12319 



.2063103 

.7213563 

estado>municipio | 
var(_cons)| 

.0829691 

.0142976 



.059188 

.1163053 

LR test vs. Poisson 

regression: 

chi2 (2) 

= 1279.65 

Prob > chi2 = 

0.0000 


Note: LR test is conservative and provided only for reference. 


Figura 16.61 Outputs do modelo hierarquico Poisson com interceptos aleatorios no Stata. 


Com base nesta figura, podemos verificar inicialmente a existencia de uma estrutura desequilibrada de dados 
agrupados em tres niveis. Alem disso, o resultado do teste de razao de verossimilhanga mostra que existe variabi- 
lidade significativa entre distritos localizados em diferentes municipios e estados, o que acaba por favorecer o uso 
do modelo multinivel Poisson em relagao a um modelo tradicional de regressao Poisson sem efeitos aleatorios. 

Antes de prosseguirmos, podemos digitar o comando estimates store mepoisson, que faz com que os 
resultados desta estimagao sejam arquivados para posterior comparagao com os que serao obtidos pela estimagao 
do modelo binomial negativo. Alem disso, tambem podemos digitar predict lambda, que gera uma nova vari- 
avel no banco de dados ( lambda ) correspondente aos valores estimados de incidencia de acidentes de transito no 
ultimo ano em cada um dos 1.062 distritos municipais. Por fim, o pesquisador ainda pode digitar o termo irr 
(incidence rate ratio) ao final do comando apresentado, conforme estudamos no Capitulo 14, a fim de que sejam 
estimadas as taxas de incidencia de acidentes de transito por ano correspondentes a alteragao em cada parametro 
do componente de efeitos fixos. 

Um pesquisador ainda mais curioso podera verificar que as estimates dos parametros dos componentes de 
efeitos fixos e aleatorios sao identicas as que seriam obtidas por meio do seguinte comando: 

meglm acidentes alcool || estado: || municipio: , family(poisson) 
link(log) nolog 

que explicita, para o modelo linear generalizado multinivel (termo meglm), que a distribuigao considerada da va- 
riavel dependente e a Poisson e a fungao de ligagao canonica e a logaritmica. 

E possivel que, apos a estimagao dos parametros do componente de efeitos aleatorios, as contagens de aciden¬ 
tes de transito apresentem superdispersao. Neste sentido, devemos reexaminar os dados estimando um modelo 
binomial negativo, a fim de que seus resultados possam ser comparados com os obtidos pela estimagao do modelo 
Poisson. Para tanto, devemos digitar o seguinte comando: 

menbreg acidentes alcool || estado: || municipio: , nolog 11 

Os resultados obtidos sao apresentados na Figura 16.62. 


11 A estimagao de modelos multinivel do tipo binomial negativo (comando menbreg) passou a estar disponivel no Stata a partir da versao 
13. 
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. menbreg acidentes 

alcool || 

estado: || 

municipio: , nolog 



Mixed-effects nbinomial regression 
Overdispersion: mean 

Number of obs 

- 

1062 

1 

Group Variable | 

No. of 
Groups 

Observations per Group 
Minimum Average Maximum 



estado | 
municipio j 

27 

235 

1 

1 

39.3 95 

4.5 13 



Integration method: 

mvaghermite 

Integration points — 

7 

Log likelihood = -2234.3721 


Wald chi2(1) 
Prob > chi2 


4.38 

0.0363 

acidentes J 

Coef. 

Std. Err 

z P>|z| 

[95% Conf 

Interval] 

alcool | 
_cons j 

.0466768 

.7538477 

.0222975 

.2843403 

2.09 0.036 

2.65 0.008 

.0029746 

.196551 

.0903791 

1.311144 

/lnalpha | 

-2.258241 

.1355339 

-16.66 0.000 

2.523883 

-1.9926 

estado | 

var(_cons) j 

.3775391 

.1205934 


.2018698 

.7060775 

estado>municipio | 
var(_cons)| 

.0613878 

.0138809 


.0394104 

.0956212 


LR test vs. nbinomial regression: chi2(2) = 508.99 Prob > chi2 = 0.0000 


||Note: LR test is conservative and provided only for reference. || 

Figura 16.62 Outputs do modelo hierarquico binomial negativo com interceptos aleatorios no Stata. 

Na parte inferior desta figura, podemos verificar, pelo resultado do teste de razao de verossimilhan^a, que a 
estima^ao deste modelo multimvel e mais adequada do que a estimafao de um modelo tradicional de regressao 
binomial negativo sem efeitos aleatorios para os dados do nosso exemplo. Alem disso, todos os parametros dos 
componentes de efeitos fixos e aleatorios sao estatisticamente diferentes de zero, ao nivel de significance de 5%. 

A estimaqao das variances de u 0Qk e r 0jk apresentaram valores menores do que os respectivos valores obtidos 
quando da estima^ao do modelo multimvel Poisson (de 0,386 para 0,377 para u 00k e de 0,083 para 0,061 para 
r 0 j k ), fato que se justifica pela adi^ao de um parametro de superdispersao que controla a variabilidade dos dados. 

Na Figura 16.62, podemos verificar que e apresentada a estima^ao de Inalpha. Lembremos, conforme estu- 
damos no Capitulo 14, que alpha (ou (/)), que e a superdispersao condicional dos dados, representa o inverso do 
parametro de forma da distribui^ao binomial negativa. Para os dados do nosso exemplo, temos que alpha = e~ 2 ’ 258 
= 0,105 . 

Analogamente, os parametros dos componentes de efeitos fixos e aleatorios tambem podem ser obtidos por 
meio do seguinte comando: 

meglm acidentes alcool | | estado: | | municipio: , family (nbinomial) 
link(log) nolog 

A fim de compararmos as estimates dos modelos multimvel dos tipos Poisson e binomial negativo, devemos 
elaborar um teste de razao de verossimilhan^a, digitando o seguinte comando: 

lrtest mepoisson ., force 

em que o termo mepoisson refere-se a estima^ao do modelo Poisson. Como estamos comparando dois diferen¬ 
tes estimadores (mepoisson e menbreg), devemos utilizar o termo force quando da elabora^ao deste teste de 
razao de verossimilhanga. O resultado do teste e apresentado na Figura 16.63 e, por meio do qual, podemos ve¬ 
rificar que o modelo binomial negativo e mais adequado, comprovando a existence de superdispersao nos dados. 


. lrtest mepoisson ., force 

Likelihood-ratio test LR chi2(l) = 123.07 

(Assumption: mepoisson nested in .) Prob > chi2 = 0.0000 

Note: The reported degrees of freedom assumes the null hypothesis is not on the boundary 
of the parameter space. If this is not true, then the reported test is conservative. 


Figura 16.63 Teste de razao de verossimilhan^a para verificagao da adequa^ao do modelo hierarquico binomial negativo. 
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Portanto, a expressao da quantidade media estimada de acidentes de transito por ano, para determinado dis— 
trito municipal i em determinado municipio j num estado fe, e dada por: 

_ ( 0 , 754 + 0 , 047 .alcool Jk +u m +r 0jk ) 
u ijk ~ e 

em que u representa o numero esperado de ocorrencias ou a taxa media estimada de incidencia de acidentes de 
transito para a exposigao de um ano. A fim de que essas quantidades estimadas sejam geradas no banco de dados 
(nova variavel u), podemos digitar o seguinte comando: 

predict u 

Alem disso, tambem podemos obter os termos de erro u 00k (invariantes para distritos localizados em um mes- 
mo estado) e r 0jk (invariantes para distritos localizados no mesmo municipio). Para tanto, devemos digitar o se¬ 
guinte comando: 

predict uOO rO, remeans 

que faz com que duas novas variaveis, uOO e rO , tambem sejam geradas no banco de dados. 

O comando a seguir, que gera os outputs da Figura 16.64, mostra os valores de u,u00 e rO apenas para os dis¬ 
tritos dos municipios de Mato Grosso: 

list estado municipio acidentes u uOO rO if estado== f, MT" , 
sepby(municipio) 


. list estado municipio acidentes u uOO rO if estado—"MT" , sepby (municipio) 



+- 







-+ 


1 

estado 

munici~o 

aciden~s 

u 

uOO 

rO 

1 

669. 

1 

MT 

150 

2 

1.600369 

-.815816 

-.0064477 

1 

670. 

1 

MT 

150 

2 

1.63053 

-.815816 

-.0064477 

1 

671. 

1 

MT 

150 

1 

1.63053 

-.815816 

-.0064477 

1 

672. 

1 

MT 

150 

1 

1.585499 

-.815816 

-.0064477 

1 

673. 

1 

MT 

150 

2 

1.499133 

-.815816 

-.0064477 

1 

674. 

1 

MT 

151 

0 

1.415119 

-.815816 

-.1107979 

1 

675. 

1 

MT 

151 

3 

1.441788 

-.815816 

-.1107979 

1 

676. 

1 

MT 

151 

1 

1.428391 

-.815816 

-.1107979 

1 

677. 

1 

MT 

151 

1 

1.441788 

-.815816 

-.1107979 

1 

678. 

1 

MT 

151 

1 

1.338034 

-.815816 

-.1107979 

1 

679. 

1 

MT 

151 

1 

1.388943 

-.815816 

-.1107979 

1 

680. 

1 

MT 

151 

2 

1.415119 

-.815816 

-.1107979 

1 

681. 

1 

MT 

151 

1 

1.350584 

-.815816 

-.1107979 

1 

682. 

1 

MT 

151 

1 

1.350584 

-.815816 

-.1107979 

I 

683. 

1 

MT 

151 

2 

1.40197 

-.815816 

-.1107979 

I 

684. 

1 

MT 

151 

1 

1.376037 

-.815816 

-.1107979 

1 

685. 

1 

MT 

151 

1 

1.441788 

-.815816 

-.1107979 

1 

686. 

I 

MT 

152 

2 

1.667662 

-.815816 

.01607 

I 

687. 

1 

MT 

152 

2 

1.576821 

-.815816 

.01607 

1 

688. 

I 

MT 

152 

1 

1.621606 

-.815816 

.01607 

1 

689. 

1 

MT 

152 

2 

1.547654 

-.815816 

.01607 

1 

690. 

I 

MT 

152 

1 

1.547654 

-.815816 

.01607 

1 

691. 

1 

MT 

152 

2 

1.533273 

-.815816 

.01607 

1 

692. 

1 

MT 

153 

1 

1.462078 

-.815816 

-.031476 

1 

693. 

1 

MT 

153 

2 

1.489632 

-.815816 

-.031476 

1 

694. 

1 

+- 

MT 

153 

1 

1.517706 

-.815816 

-.031476 

1 

■+ 


Figura 16.64 Quantidades reais e estimadas de acidentes de transito e termos de erro u QOk e r 0jk 
para distritos municipal em Mato Grosso (k = Mato Grosso). 


Por meio desta figura, podemos verificar que, enquanto os valores de uOO sao invariantes para todos os distri¬ 
tos municipais de Mato Grosso, os valores de rO sao invariantes por municipio. 

Apenas para fins didaticos, o pesquisador podera verificar que a variavel u tambem pode ser gerada por meio 
da seguinte expressao: 

gen u = exp(0.7538477 + 0.0466768*alcool + uOO + rO) 
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Por fim, podemos elaborar um grafico que compara os ajustes das estimates dos modelos tradicional e mul- 
tinivel do tipo binomial negativo. Este grafico, apresentado na Figura 16.65, e obtido por meio da digita^ao dos 
seguintes comandos: 

quietly nbreg acidentes alcool 
predict utrad 

graph twoway scatter acidentes alcool || mspline utrad alcool || 
mspline u alcool ||, legend(label(2 "Binomial Negativo Tradicional") 
label(3 "Binomial Negativo Multinivel")) 


%°° 8 ° 8 


*0 8 o A CO 

O 00 _ o o 
o JO o 

q_oo 

q O 



0.00 5.00 10.00 15.00 20,00 

Quantidade media de alcool ingerida por habitante/dia no distrito (em gramas) 


quantidade de acidentes de transito no distrito no ultimo ano | 
Binomial Negativo Tradicional 
Binomial Negativo Multinivel 


Figura 16.65 Ajustes das quantidades estimadas de acidentes de transito pelos modelos tradicional e multinivel 
do tipo binomial negativo, em fun^ao da quantidade media de alcool ingerida por habitante/dia no distrito. 






OUTROS MODELOS 
DE REGRESSAO 


Os capitulos desta parte sao destinados a abordagem de outras tecnicas de regressao que nao aquelas relacio- 
nadas aos Modelos Lineares Generalizados ou aos Modelos de Regressao para Dados em Painel. Nesta edi^ao, 
optamos por apresentar duas tecnicas. Enquanto, no Capitulo 17, serao estudados os modelos semiparametricos 
de regressao para dados de sobrevivencia, com foco para os modelos de riscos proporcionais de Cox, o Capitulo 
18 e destinado aos modelos de regressao com multiplas variaveis dependentes, com foco para os modelos de cor- 
rela^ao canonica. No apendice do Capitulo 17 ainda serao discutidos os modelos parametricos de regressao para 
dados de sobrevivencia, como os modelos exponencial,Weibull e Gompertz. 

Estes capitulos estao estruturados dentro de uma mesma logica de apresenta^ao, em que, inicialmente, sao in- 
troduzidos os conceitos pertinentes a cada modelo e discutidos os criterios para estima^ao de seus parametros. 
Por meio do uso de bases de dados, num primeiro momento disponibilizadas em Excel, o pesquisador tern con- 
di^oes de entender a logica por tras de cada estima^ao proposta e compreender a origem e o significado de cada 
parametro estimado. Os mesmos bancos de dados em Stata e SPSS sao, na sequencia, disponibilizados e utilizados, 
a fim de que o pesquisador tambem tenha condi^oes de elaborar as modelagens por meio destes softwares, en¬ 
tender as suas logicas e interpretar, de forma correta e adequada, os resultados obtidos. Ao final de cada capitulo, 
tambem sao propostos exercicios complementares, cujas respostas encontram-se no final do livro. 







Modelos de Regressao para Dados de 
Sobrevivencia: Riscos Proporcionais de Cox 


O tempo e um otimo professor ; 
Pena que moto seus olunos. 

Hector Berlioz 


Ao final deste capi'tulo, voce tera condigoes de: 

• Estabelecer as circunstancias a partir das quais os modelos de regressao para dados de sobrevivencia 
podem ser utilizados. 

• Apresentar o procedimento Kaplan-Meier e elaborar uma curva da fungao de sobrevivencia ao evento de 
interesse. 

• Entender a estimagao dos parametros de um modelo de riscos proporcionais de Cox pelo metodo de 
maxima verossimilhanpa parcial. 

• Avaliar os resultados dos testes estatisticos pertinentes ao modelo de riscos proporcionais de Cox. 

• Elaborar intervalos de confianpa dos parametros do modelo estimado para efeitos de previsao. 

• Estimar modelos de riscos proporcionais de Cox em Microsoft Office Excel®, Stata Statistical Software® e IBM 
SPSS Statistics Software® e interpretar seus resultados. 


17.1. INTRODU^AO 

Os modelos de regressao para dados de sobrevivencia sao muito utilizados em diversos campos do conhe- 
cimento e tern por proposito estudar como se comporta a probabilidade de ocorrencia de determinado evento 
apos certo tempo de monitoramento, em fungao de uma ou mais variaveis preditoras, ou, mais especificamente, 
como se comportam a fun^ao de sobrevivencia ao evento em estudo para cada perfodo de monito¬ 
ramento e a fun^ao da taxa de risco de ocorrencia do evento propriamente dito em cada perfodo. 
Segundo Hamilton (2013), embora a ocorrencia do evento possa ser considerada algo bom ou ruim, dependendo 
daquilo que o pesquisador estiver estudando, e comumente conhecida na literatura por falha. Assim, a fun^ao da 
taxa de risco de ocorrencia do evento e tambem conhecida por funnao da taxa de falha. 

Imagine, por exemplo, que um pesquisador tenha interesse em estudar o tempo que usuarios de telefonia ce- 
lular permanecem como clientes de determinada operadora. Para tanto, uma amostra de usuarios e monitorada, 
porem cada um deles por um perfodo de tempo nao necessariamente igual, e com datas de inicio e termino tam¬ 
bem nao necessariamente iguais. Ao termino do monitoramento de cada individuo, observa-se ou a ocorrencia 
do evento de interesse (mudan^a de operadora de telefonia celular) ou um dado censurado, que correspon- 
de a inexistencia do evento ate aquele instante de tempo. Para esta ultima situa^o, a partir do instante final do 
monitoramento, nao se conhece mais o comportamento daquele individuo, porem sabe-se que, ate aquele mo¬ 
menta, o evento nao ocorreu. Uma censura pode acontecer por diversas razoes, como, por exemplo, a morte do 
individuo monitorado, o desejo de nao mais transmitir informa^oes a seu respeito, a impossibilidade de rastrear 
seu comportamento, entre outras. A Figura 17.1 apresenta, de forma ilustrativa, como se apresentam os dados em 
uma analise de sobrevivencia. 

As caracteristicas das observa^oes (1 a 6) desta figura podem ser apresentadas num banco de dados, conforme 
mostra a Tabela 17.1. 

Podemos verificar que os instantes de inicio e termino e os tempos de monitoramento sao diferentes entre 
as observa^oes. Alem disso, as observances com dados censurados, que tipicamente caracterizam uma analise de 
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Figura 17.1 Com porta men to dos dados em analise de sobrevivencia. 


Tabela 17.1 Banco de dados da Figura 17.1. 


Observa^ao 

Status 

Tempo de Monitoramento 

1 

Censura 

2 

2 

Evento 

3 

3 

Evento 

1 

4 

Evento 

4 

5 

Censura 

2 

6 

Evento 

3 


sobrevivencia, serao incluidas no calculo da fun^ao de sobrevivencia ao evento, ou seja, uma observagao com 
status de censura sera utilizada no denominador da expressao para o calculo das probabilidades de sobrevivencia 
ao evento para um tempo de monitoramento menor do que o daquela especifica censura. 

Os modelos com dados de sobrevivencia sao baseados nos seminais trabalhos de Kaplan e Meier (1958) e de 
Cox (1972) e tern por objetivo principal estudar o comportamento da curva da fun^ao de sobrevivencia ao even¬ 
to em questao com base nos tempos de monitoramento das observa^oes da amostra e levando-se em considera- 
£ao a existencia de dados censurados. Se o intuito se restringir somente a este estudo, pode-se elaborar o pro- 
cedimento Kaplan-Meier. Entretanto, caso o pesquisador tenha o interesse em verificar como se comportam 
a fun^ao de sobrevivencia ao evento e a fun^ao da taxa de risco de ocorrencia do evento (taxa de falha) a partir 
das caracteristicas de variaveis preditoras qualitativas ou quantitativas, poderao, neste caso, ser estimados modelos 
de regressao especificos para dados de sobrevivencia. 

Muitas sao as estimates que podem ser utilizadas em modelos de regressao para dados de sobrevivencia, e 
a defini^ao do modelo mais adequado e feita com base na distribui^ao estatistica da fun^ao de sobrevivencia ao 
evento para a amostra em questao, sendo comuns duas abordagens: a semiparametrica e a parametrica. 
Enquanto a primeira estima os parametros de uma fun^ao de sobrevivencia sem que haja referenda alguma a 
determinada distribui^ao, a segunda assume que a fun^ao de sobrevivencia ao evento segue uma distribui^ao 
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teorica, como, por exemplo, a exponencial, a Weibull ou a Gompertz. Neste capitulo, estudaremos a aborda- 
gem semiparametrica, que e representada pelo modelo de riscos proporcionais de Cox (ou simplesmente 
regressao de Cox), bastante utilizado em diversos campos do conhecimento, como medicina, bioestatistica, 
agropecuaria, engenharia, atuaria, economia, marketing, recursos humanos, logistica, finangas e contabilidade. 
Entretanto, no apendice deste capitulo faremos uma breve apresentagao dos modelos parametricos de regressao 
para dados de sobrevivencia e elaboraremos algumas estimates em Stata. 

Imagine, por exemplo, outra situagao em que se deseja estudar as curvas da fungao de sobrevivencia e da fun¬ 
gao da taxa de risco a partir do monitoramento de pacientes terminais detentores de determinada doenga, em 
que o evento e a morte. Se o objetivo nao for o de estudar a influencia de variaveis preditoras sobre o comporta- 
mento destas curvas, pode-se partir simplesmente para a elaboragao do procedimento Kaplan-Meier. Se a amostra 
for dividida, por exemplo, em dois grupos, em que o primeiro grupo recebe um medicamento tradicional e o se- 
gundo, um novo medicamento recentemente introduzido no mercado, pode-se tambem aplicar o procedimento 
Kaplan-Meier, com o intuito de se gerar uma curva para cada grupo, o que possibilitara a comparagao estatistica 
entre seus comportamentos. Entretanto, caso haja o interesse em tornar a analise preditiva, pode-se estimar um 
modelo de riscos proporcionais de Cox com o objetivo de se verificar, por exemplo, se a idade dos pacientes, seus 
habitos alimentares e o proprio tipo de medicamento fornecido influenciam a taxa de risco de morte em cada 
periodo, ou seja, diminuem a probabilidade de sobrevivencia. 

Como o tempo de monitoramento ate o evento ou ate a censura apresenta-se de maneira quantitativa, e por 
vezes com valores apenas inteiros, e muito comum que sejam estimados modelos de regressao por minimos qua- 
drados ou modelos de regressao para dados de contagem. Entretanto, a adequagao da estimagao de modelos de 
regressao para dados de sobrevivencia, como os modelos de riscos proporcionais de Cox, consiste em levar em 
consideragao a existencia de dados censurados para a elaboragao do calculo das probabilidades de sobrevivencia 
e, consequentemente, para a definigao das curvas da fungao de sobrevivencia ao evento e da fungao da taxa de 
risco de ocorrencia do evento. A definigao correta da modelagem e da sua estimagao deve fundamen- 
talmente levar em consideragao os objetivos de pesquisa e a natureza dos dados! Assim como as tec- 
nicas estudadas nos capitulos anteriores, os modelos de regressao para dados de sobrevivencia tambem devem ser 
definidos com base na teoria subjacente e na experiencia do pesquisador, de modo que seja possivel estimar o 
modelo desejado, analisar os resultados obtidos por meio de testes estatisticos e elaborar previsoes. 

Neste capitulo, trataremos dos modelos de regressao para dados de sobrevivencia, com os seguintes objetivos: 
(1) introduzir os conceitos sobre o procedimento Kaplan-Meier e sobre os modelos de riscos proporcionais de 
Cox; (2) apresentar a estimagao por maxima verossimilhanga parcial em modelos de riscos proporcionais de Cox; 
(3) interpretar os resultados obtidos e elaborar previsoes; e (4) apresentar a aplicagao das tecnicas em Excel, Stata 
e SPSS. Inicialmente, sera elaborada a solugao em Excel de um exemplo concomitantemente a apresentagao dos 
conceitos e a sua resolugao manual. Apos a introdugao dos conceitos serao apresentados os procedimentos para a 
elaboragao das tecnicas em Stata e em SPSS. 


17.2. PROCEDIMENTO KAPLAN-MEIER E 0 MODELO DE RISCOS PROPORCIONAIS DE COX 

O procedimento Kaplan-Meier, conforme discutimos, nao apresenta carater preditivo, porem oferece ao pes¬ 
quisador uma oportunidade de elaborar uma curva da fungao de sobrevivencia ao evento com base nos tempos 
de monitoramento das observagoes da amostra e na existencia de dados censurados. Assim, os valores presences 
numa fungao de sobrevivencia representam probabilidades de sobrevivencia ao evento para tempos de monito¬ 
ramento maiores do que C, podendo ser calculados da seguinte forma: 


S(t) = fl 


j=to 


n rh 


(17.1) 


em que n t representa o numero de observagoes que nao apresentaram evento ou censura ate o imcio do tempo 
de monitoramento t e c representa o numero de eventos que ocorrem para estas observagoes com tempo de mo¬ 
nitoramento exatamente igual a C.Alem disso, podemos definir c como o numero de censuras que ocorrem para 
estas observagoes com tempo de monitoramento tambem exatamente igual a t. Por fim, t Q corresponde ao menor 
tempo de monitoramento entre todos os monitoramentos realizados na amostra. 
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Tabela 17.2 Calculos das probabilidades de sobrevivencia para os tempos de monitoramento. 


Tempo de Monitoramento (t) 

n < 



Probabilidade de Sobrevivencia ao Evento S(t) 

1 

6 

1 

0 

k i)= 

'6-q 

= 0,833 

2 

5 

0 

2 

5(2) = 

(6-l] 

6 J 

^ LtT' 
t-n I 

O 

= 0,833 

3 

3 

2 

0 

5(3) =| 

f 6_1 ) 
l 6 ) 

5 ~°1 
5 J 

^3-2^ 

3 J 

= 0,277 

4 

1 

1 

0 

5(4) = 

^ 6 J 

17 ) 

t'.l 

( i-0 
- =0,000 

l 1 J 


A partir do banco de dados da Figura 17.1 (Tabela 17.1), podemos calcular as probabilidades de sobrevivencia 
ao evento para os diferentes tempos de monitoramento, conforme apresenta a Tabela 17.2, e, a partir dessas pro¬ 
babilidades, elaborar a curva da fun^ao de sobrevivencia ao evento. 

E importante que nao haja confusao entre o tempo de monitoramento e o instante erri que se da o inicio do 
monitoramento de cada observa^ao. E o primeiro que nos interessa, ja que o nosso intuito e calcular as probabili¬ 
dades de sobrevivencia ao evento para cada periodo de monitoramento, independentemente de quando se inicia. 

Por meio da analise da Tabela 17.2, podemos inicialmente observar que os tempos de monitoramento foram 
dispostos de forma crescente, mesmo que isto nao tenha sido verificado no banco de dados original apresenta- 
do na Tabela 17.1. Assim, podemos verificar que, para um tempo de monitoramento menor do que 1, nenhuma 
observa^ao apresentou evento ou censura (n = 6), porem uma delas apresentou evento exatamente no tempo 
t = 1 (e 1 = 1). Ja para um tempo de monitoramento menor do que 2, verificamos que cinco observa^oes ain- 
da nao apresentaram evento ou censura ( n 2 — 5), porem duas delas apresentaram censura exatamente no tempo 
t — 2 (c 2 = 2). Como nao ocorreu nenhum evento no tempo de monitoramento t — 2 (e 2 = 0), o calculo da pro- 
babilidade nao sofre nenhuma altera^ao (S(l) = 5(2) = 0,833). Por outro lado, as duas censuras que ocorreram 
em t = 2 fazem com que apenas tres observances nao tenham apresentado evento ou censura para um tempo de 
monitoramento menor do que 3 (rc = 3) e, como mais duas apresentaram evento em t = 3 (e 3 — 2), isso precisa 
ser levado em considera^ao para o calculo da probabilidade de sobrevivencia ao evento para um tempo de mo¬ 
nitoramento maior do que t — 3 (5 (3)). Por fim, como apenas uma observa^ao ainda nao apresentou evento ou 
censura para um tempo de monitoramento menor do que 4 (n 4 = 1), porem esta mesma observa^ao sofre evento 
em t = 4 (e = 1), a probabilidade de sobrevivencia ao evento para um tempo de monitoramento maior do que 
t = 4 e igual a zero (5(4) = 0). Obviamente, a probabilidade de sobrevivencia ao tempo maximo de monitora¬ 
mento e sempre igual a zero (S(t = max) = 0) e a probabilidade de sobrevivencia a um tempo nulo de monito¬ 
ramento e sempre igual a 1 (S (0) = 1). 

Desta forma, com base na logica proposta na Tabela 17.2, podemos escrever a seguinte expressao: 

n M =n t ~e t ~ c t (17.2) 

Logo, a quantidade de censuras que ocorrem para um determinado tempo de monitoramento t nao interfere 
no calculo da probabilidade de sobrevivencia para o tempo de monitoramento maior do que t. Entretanto, caso 
ocorram censuras em t, este fato influenciara no calculo das probabilidades de sobrevivencia ao evento para tem¬ 
pos de monitoramento maiores do que t + 1. 

Com base nos calculos das probabilidades de sobrevivencia ao evento para os diferentes tempos de monito¬ 
ramento (Tabela 17.2), podemos elaborar a curva da fun^ao de sobrevivencia ao evento (Figura 17.2), tambem 
conhecida por curva de probabilidades de sobrevivencia de Kaplan-Meier. 

As curvas de probabilidades de sobrevivencia de Kaplan-Meier tipicamente apresentam a forma de degraus 
descendentes, visto que as probabilidades de sobrevivencia ao evento para tempos de monitoramento maiores 
tendem a ser mais baixas. Por meio desta curva, podemos elaborar a curva de probabilidades de ocorrencia 
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Figura 17.2 Curva de probabilidades de sobrevivencia de Kaplan-Meier (Sft)). 


do evento para os diferentes tempos de monitoramento, tambem conhecida por curva de probabilidades de 
falha de Kaplan-Meier, cujos valores sao calculados com base na seguinte expressao: 

= (17.3) 

Esta curva e apresentada na Figura 17.3. 

As curvas de probabilidades de falha de Kaplan-Meier tipicamente tambem apresentam a forma de degraus, 
porem agora ascendentes, ja que as probabilidades de ocorrencia do evento para tempos de monitoramento 
maiores tendem a ser mais elevadas. 



Figura 17.3 Curva de probabilidades de falha de Kaplan-Meier (FftJ). 
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Alem das fun^oes de sobrevivencia ao evento ( S(t ) ) e de ocorrencia do evento importante que seja 

definida a fun^ao da taxa de risco de ocorrencia do evento, conhecida por fungao da taxa de falha e representa- 
da por h(t). Assim, a taxa de risco de ocorrencia do evento (taxa de falha) para um tempo de monitoramento t 
pode ser definida da seguinte forma: 


h(t) = 


probabilidade de ocorrencia do evento (falha) entre os tempos t — At e t 
(At ). (probabilidade de ocorrencia do evento (falha) apos o tempo t — At) 


(17.4) 


Logo, fazendo uso da expressao (17.3), temos que: 

h (t)= ^zAhM 

U (At).S(t-At) 


(17.5) 


Desta forma, fazendo At — 1, podemos, para os dados do nosso exemplo, elaborar aTabela 17.3. 


Tabela 17.3 Calculos das taxas de falha para os tempos de monitoramento. 


Tempo de 
Monitoramento ( t ) 

Probabilidade de 
Sobrevivencia ao Evento S ( t ) 

Taxa de Risco de Ocorrencia 
do Evento (Taxa de Falha) h (t) 

^Taxa de Risco 
Acumulada 

1 

5(1) = 0,833 

i,000 - 0,833 

(1)-S(0) i 

0,167 

2 

S(2) = 0,833 

,0.833 - 0,833 
(l).S(l) 0,833 

0,167 

3 

S(3) = 0,277 

0,833 - 0,277 
(1).S(2) 0,833 

0,833 

4 

5(4) = 0,000 

i ( 4)J(3):S( 4 ),0,27 7 - 0.0°0 = o« 

(1).S(3) 0,277 

1,833 


Assim, a taxa de risco de ocorrencia do evento para o tempo de monitoramento t = 1 e igual a 0,167, visto 
que apenas uma observa^ao apresentou evento em t— 1 entre as seis que come^aram a ser monitoradas (t = 0). 
Ja para t — 2, a taxa de falha e igual a 0,000, uma vez que, das cinco observa^oes que foram monitoradas por um 
periodo de tempo maior do que 1, nenhuma apresentou evento em t — 2 (apenas censuras). Para o tempo de mo¬ 
nitoramento t = 3, a taxa de risco de ocorrencia do evento e igual a 0,666, ja que duas observa^oes apresentaram 
evento em t — 3 entre as tres que foram monitoradas por um periodo maior do que 2. Por fim, para o tempo de 
monitoramento t — 4, a taxa de falha e igual a 1,000, uma vez que apenas uma observa^ao foi monitorada por 
um periodo de tempo maior do que tres, tendo esta apresentado evento em t — 4. Em outras palavras, o risco de 
ser evento para um periodo maximo de monitoramento e igual a 1,000 (100%). Alem disso, a ultima coluna da 
Tabela 17.3, que apresenta os valores acumulados de h(t) ao longo dos tempos de monitoramento, e tambem 
conhecida por taxa de falha acumulada de Nelson-Aalen, cuja curva e apresentada na Figura 17.4. 

Mais do que simplesmente definir a fun^ao da taxa de risco (taxa de falha) de ocorrencia do evento, o nosso 
objetivo neste capitulo e o de estudar como esta pode sofrer influencia do comportamento de variaveis expli- 
cativas e, neste sentido, devemos partir para a estima^ao do modelo semiparametrico de riscos proporcionais de 
Cox, que e uma extensao natural do procedimento Kaplan-Meier, porem com caracteristicas de regressao. De 
acordo com Hamilton (2013), podemos escrever a expressao da taxa de falha em fun^ao de variaveis preditoras 
da seguinte forma: 


(17.6) 
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Figura17.4 Curva das taxasdefalha h(t) acumuladas de Nelson-Aalen. 


em que h 0 ( t ) representa o risco basal ( baseline hazard) para um tempo de monitoramento t, e corresponde ao 
risco de ocorrencia do evento em t para determinada observa^ao z, quando todas as suas variaveis explicativas 
apresentarem valores iguais a zero. Alem disso, ft j . (j = 1, 2, k) sao os parametros estimados de cada variavel 
explicativa, X. sao as variaveis explicativas (metricas ou dummies) e o subscrito i representa cada observa^ao da 
amostra (i = 1,2, n, em que neo tamanho da amostra). 

A expressao (17.6), que estima o risco de ocorrencia do evento para determinada observa^ao i monitorada 
por um periodo de tempo t com base no comportamento de suas variaveis explicativas X., tambem pode ser es- 
crita da seguinte forma: 

ln[4(0]=ln[i(0]+A-X lf +)3 2 .X 2> .+... + ^.X fa . (17.7) 

em que cada parametro ft. pode ser interpretado como o incremento estimado no logaritmo da taxa de ris¬ 
co quando a respectiva variavel X. aumenta em uma unidade, mantidas as demais condi^oes constantes. Logo, 
cada e^ J representa o incremento na taxa de risco ( hazard ratio) de ocorrencia do evento, relativamente 
a taxa de risco basal, quando a respectiva variavel X. aumenta em unidade, mantidas as demais condigoes 
constantes. 

Com base na expressao (17.6) e considerando a rela^ao entre a fun^ao da taxa de risco de ocorrencia do even¬ 
to e a fun^ao de sobrevivencia ao evento, dada por meio da expressao (17.5), podemos escrever que: 

p (Pl-Xu+P 2 X2i^Pk- X ki] 

S i (t) = S 0 i (t) (17.8) 

em que S 0 (t) representa a fun^ao de sobrevivencia basal ( baseline survival) para um tempo de monitoramento t , 
e corresponde a probabilidade de sobrevivencia ao evento em t para determinada observa^ao i, quando todas as 
suas variaveis explicativas apresentarem valores iguais a zero. 

O modelo de riscos proporcionais de Cox tern este nome uma vez que assume o principio da propor- 
cionalidade, ou seja, parte do principio de que nenhuma variavel explicativa X. seja dependente do tempo de 
monitoramento. Na segao 17.3, elaboraremos alguns testes para verifica^ao da existencia de proporcionalidade 
quando da estima^ao de uma regressao de Cox no Stata. 
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Alem disso, a regressao de Cox e considerada semiparametrica, uma vez que, enquanto estima as 
fun^oes de sobrevivencia basal S 0 (t) e de risco basal h 0 '(t ) de forma nao parametrica, dado que estas fun^oes 
apresentam distributes desconhecidas, estima os parametros /3. de forma parametrica, por meio de maxima ve- 
rossimilhan£a parcial, cuja expressao sera discutida na se^ao 17.2.1. Partiremos, portanto, para a estima^ao pro- 
priamente dita dos parametros /3, por meio da apresenta^ao de um exemplo elaborado inicialmente em Excel. 


17.2.1. Estima^ao do modelo de riscos proporcionais de Cox por maxima 
verossimilhan^a parcial 

Apresentaremos, neste momento, os conceitos pertinentes a estima^ao por mixima verossimilhan^a parcial de 
um modelo de regressao de Cox por meio de um exemplo que sera resolvido inicialmente em Excel. 

Imagine que o nosso mesmo professor, inquieto e perspicaz e que ja explorou consideravelmente os efeitos 
de determinadas variaveis explicativas sobre o tempo de deslocamento de um grupo de alunos ate a escola, so¬ 
bre a probabilidade de se chegar atrasado as aulas, sobre a quantidade de atrasos que ocorrem semanal ou men- 
salmente e sobre o desempenho escolar ao longo do tempo e para diferentes escolas, por meio, respectivamente, 
de modelos de regressao multipla, de regressao logistica binaria e multinomial, de regressao para dados de con- 
tagem e de regressao para dados em painel, tenha agora o interesse em investigar se algumas variaveis preditoras 
influenciam positiva ou negativamente o risco de um aluno se formar mais rapidamente, dado um determinado 
tempo de monitoramento. 

Sendo assim, o professor monitorou cada um dos 100 alunos da escola onde leciona, atento a ocorrencia do 
evento de interesse que, neste caso, corresponde a formatura. Alem disso, tambem ficou atento a ocorrencia de 
censuras para alguns alunos ao termino de determinados periodos de monitoramento, decorrentes, principal- 
mente, de abandono escolar. Por fim, coletou, para cada estudante, dados sobre a posse de bolsa integral de estudo 
e sobre a idade ao termino do monitoramento. Seu intuito, portanto, e elaborar uma analise preditiva, por meio 
da estima^ao de um modelo de riscos proporcionais de Cox, com o objetivo de examinar os efeitos da conces¬ 
sao de bolsas de estudo e da idade dos alunos sobre a taxa de risco de ocorrencia de formatura para cada periodo 
de monitoramento e, portanto, investigar como o comportamento destas variaveis pode influenciar a redu^ao da 
probabilidade de sobrevivencia ao evento para cada tempo de monitoramento. 

Um pesquisador poderia estimar um modelo de regressao logistica binaria para investigar a influencia das 
variaveis referentes a concessao de bolsa de estudo e a idade dos alunos sobre a probabilidade de ocorrencia de 
formatura. Entretanto, este modelo, embora estimavel, nao levaria em considera^ao o tempo de monitoramen¬ 
to de cada estudante e, consequentemente, nao capturaria o comportamento da taxa de risco de ocorrencia de 
formatura para cada periodo de monitoramento. Outro pesquisador poderia ainda estimar modelos de regressao 
multipla ou para dados de contagem para investigar a influencia das variaveis referentes a concessao de bolsa de 
estudo e a idade dos alunos sobre o tempo de monitoramento. Estes modelos, embora tambem estimaveis, for- 
neceriam informa^oes diferentes daquelas desejadas pelo nosso professor, por nao levarem em considera^ao a 
existencia de dados censurados na amostra. Portanto, os modelos de regressao para dados de sobrevivencia tipica- 
mente consideram os tempos de monitoramento de cada observa^ao e a existencia de censuras para que, a partir 
dos quais, sejam definidas as fun^oes de sobrevivencia ao evento e da taxa de risco de ocorrencia do evento de 
interesse e, consequentemente, possam ser estimados os parametros das variaveis preditoras do comportamento 
destas fun^oes. 

Parte do banco de dados do nosso exemplo encontra-se naTabela 17.4. 

A variavel correspondente a ocorrencia de evento ou censura apresenta-se como dummy , em que a 
categoria evento e comumente representada por 1 e categoria censura , por 0. Quanto a variavel explicati- 
va referente a concessao de bolsa, definimos que, enquanto a categoria sim sera representada por 1, a ca¬ 
tegoria nao sera representada por 0. O banco de dados completo pode ser acessado por meio do arquivo 

TempoFormaturaCox.xls. 

A fim de que sejam elaborados os graficos da curva da fun^ao de sobrevivencia ao evento (curva de proba- 
bilidades de sobrevivencia de Kaplan-Meier) e da curva da fun^ao da taxa de risco acumulada de ocorrencia do 
evento (curva das taxas de falha acumuladas de Nelson-Aalen), apresentamos, inicialmente, a Tabela 17.5, em que 
os tempos de monitoramento estao dispostos em ordem crescente, seguindo a logica proposta quando da elabo- 
ra^ao dasTabelas 17.2 e 17.3. 
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Tabela 17.4 Exemplo: status, tempo de monitoramento, concessao de bolsa e idade dos estudantes da escola. 


Estudante 

Status 

Tempo de monitoramento 
(0 

Concessao de bolsa 

<*u> 

Idade 

<*»> 

Gabriela 

1 (evento) 

47 

1 (sim) 

43 

Patricia 

1 (evento) 

27 

0 (nao) 

47 

Gustavo 

1 (evento) 

29 

0 (nao) 

27 

Leticia 

1 (evento) 

18 

1 (sim) 

52 

Luiz Ovidio 

1 (evento) 

22 

0 (nao) 

48 

Leonor 

0 (censura) 

70 

1 (sim) 

28 

Dalila 

1 (evento) 

48 

0 (nao) 

33 

Antonio 

0 (censura) 

78 

1 (sim) 

30 

Julia 

1 (evento) 

89 

1 (sim) 

25 

Mariana 

1 (evento) 

39 

0 (nao) 

33 


Filomena 

1 (evento) 

52 

0 (nao) 

39 


Estela 

1 (evento) 

67 

0 (nao) 

43 


Tabela 17.5 Calculos das probabilidades de sobrevivencia e das taxas de falha. 


Tempo (t) 

", 


5 

S(,) 

h( t ) 

h(t) acumulada (Nelson-Aalen) 

15 

100 

1 

0 

0,9900 

0,0100 

0,0100 

17 

99 

0 

1 

0,9900 

0,0000 

0,0100 

18 

98 

1 

0 

0,9799 

0,0102 

0,0202 

19 

97 

1 

0 

0,9698 

0,0103 

0,0305 

20 

96 

2 

0 

0,9496 

0,0208 

0,0513 

21 

94 

2 

0 

0,9294 

0,0212 

0,0726 

22 

92 

1 

0 

0,9193 

0,0108 

0,0834 

23 

91 

2 

0 

0,8991 

0,0219 

0,1054 

24 

89 

2 

0 

0,8789 

0,0224 

0,1279 

25 

87 

2 

0 

0,8587 

0,0229 

0,1509 


89 

1 

1 

0 

0,0000 

1,0000 

3,8276 


Quando do calculo dos valores da ultima coluna da Tabela 17.5, deve-se tomar cuidado com a propaga^ao de 
pequenos erros de arredondamento. Enquanto esta tabela mostra os resultados dos calculos realizados para apenas 
alguns tempos de monitoramento (os dez menores e o maior deles), as Figuras 17.5 e 17.6 apresentam, respecti- 
vamente, os graficos da curva de probabilidades de sobrevivencia de Kaplan-Meier e da curva das taxas de falha 
acumuladas de Nelson-Aalen. 

Como nao desejamos apenas calcular os valores das fun^oes da taxa de risco de ocorrencia do evento (taxa de 
falha) e da probabilidade de sobrevivencia ao evento, mas, sim, estudar como estas se comportam frente a modi- 
fica^oes em variaveis explicativas, podemos, com base, respectivamente, nas expressoes (17.6) e (17.8), apresentar 
o modelo de regressao de Cox a ser estimado: 

A A (fii. bolsai +($2 ■ idadei) 

S,(t) = S 0l (t) e 













Modelos de Regressao para Dados de Sobrevivencia: Riscos Proporcionais de Cox 949 


i apresentar censura. Desta forma, o logaritmo da fun^ao de verossimilhan^a parcial (log partial likelihood function) 
pode ser escrito como: 


\(P v X u + p 2 .X 2i +... + P k .X kl )- In 

e (P v X u +P 2 .X 2l +...+P k .X tI ) 1 

l 

JJ 


(17.10) 


Portanto, podemos fazer a seguinte pergunta: Quais os valores dos parametros do modelo proposto 
que fazem com que o valor de LL da expressao (17.10) seja maximizado? Esta importante questao e a 
chave central para a elabora^ao da estima^ao por maxima verossimilhan^a parcial (ou maximum partial likelihood 
estimation) em modelos de regressao de Cox, e pode ser respondida com o uso de ferramentas de programa^ao 
linear, a fim de que sejam estimados os parametros /3 2 ,..., /3 fe com base na seguinte fun^ao-objetivo: 


LL = X (status { ).j (A.X 1( . + / 5 2 .X 2i +..• + P k -X ki ) - In 


M-Xu+P 2 x 2 i+...+p k .x k i) 


j-.tjZti 


■ max (17.11) 


Iremos resolver este problema com o uso da ferramenta Solver do Excel e utilizando os dados do nosso 
exemplo. Para tanto, devemos abrir o arquivo Temp 0 F 0 rmaturaC 0 xMaximaVer 0 ssimilhan 9 a.xls, que ser- 
vira de auxilio para o calculo dos parametros. 

Neste arquivo, alem das variaveis correspondentes ao status (evento ou censura), ao tempo de monitoramen- 
to de cada observa^ao e as duas variaveis explicativas, foram criadas quatro novas variaveis, que correspondem, 

respectivamente, a (P V X U + /? 2 .X 2t ) , a e (A- Xl ' + A* X2 '), a e (&- x 'i+p 2 -x 2 i) e ao l 0 g ar i tmo da fun^ao de verossimi- 




lhan^a parcial LL. para cada observagao. Note que os tempos de monitoramento foram novamente dispostos em 
ordem crescente, o que nao ocorre no banco de dados original, a fim de que sejam identificadas as observances I 

correspondentes a cada observa^ao i e, consequentemente, seja facilitado o calculo da expressao ^ 11 21 ^ 


I:tr>t: 


em cada linha. A Tabela 17.6 mostra parte dos dados quando os parametros j8 1 e forem iguais a 0. 


Tabela 1 7.6 Calculo de LL quando j8 1 = /3 2 = 0. 


Estudante 

Status 

Tempo 



{Pl- X u+P2- X 2i) 

e (p t .x u+ p 2 .x 2i ) 

^ e (h.x u +p 2 .x 2I ) 

htjZti 

LL. 

Roberto 

1 

15 

0 

24 

0,00000 

1,00000 

100,00000 

-4,60517 

Moara 

0 

17 

0 

24 

0,00000 

1,00000 

99,00000 

0,00000 

Leticia 

1 

18 

1 

52 

0,00000 

1,00000 

98,00000 

-4,58497 

Lucio 

1 

19 

1 

52 

0,00000 

1,00000 

97,00000 

-4,57471 

Cintia 

1 

20 

1 

52 

0,00000 

1,00000 

96,00000 

-4,56435 

Sandra 

1 

20 

0 

48 

0,00000 

1,00000 

96,00000 

-4,56435 

Gilmar 

1 

21 

0 

48 

0,00000 

1,00000 

94,00000 

-4,54329 

Elaine 

1 

21 

0 

48 

0,00000 

1,00000 

94,00000 

-4,54329 

Luiz Ovidio 

1 

22 

0 

48 

0,00000 

1,00000 

92,00000 

-4,52179 

Braulio 

1 

23 

0 

50 

0,00000 

1,00000 

91,00000 

-4,51086 


Emerson 

1 

43 

0 

33 

0,00000 

1,00000 

52,00000 

-3,95124 


Julia 

1 

89 1 25 

0,00000 1,00000 

1,00000 

0,00000 

Somatoria 

100 

LL = ^(status i ).\(p v X h +p 2 .X 2i )- In £ c (A-* u +A-*») 

*=1 [ L 


-299,00541 
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A 

B 

c 

D 

E 

F 

G 

H 

1 

j| K ! L | M [ 

1 

Estudante 

Status 

Tempo de 
Monitoramento 

Bolsa (X|) 

Made (X 2 ) 

fc.Xit * fr>.Xa 

sxp(Pi*X« + fc.Xg) 

S{expip 1 .X 1i * 
Pa.Xa)) se ^ > % 

LL, 


2 

Roberto 

1 

15 

0 

24 

0.00000 

1,00000 

100,00000 

-4,60517 

| coeficientej hazard ratio | 

3 

Moara 

0 

17 

0 

24 

0.00000 

1,00000 

99.00000 

0,00000 


4 

Leticia 

1 

18 

1 

52 

0,00000 

1,00000 

98,00000 

-4,58497 

^ | 0,0000 | 1,0000 | 

5 

Lucio 

1 

19 

1 

52 

0.00000 

1,00000 

97.00000 

-4,57471 


6 

Cintia 

1 

20 

1 

52 

0,00000 

1,00000 

96,00000 

-4,56435 

| 0,0000 | 1,0000 | 

7 

Sandra 

1 

20 

0 

48 

0,00000 

1,00000 

96,00000 

-4,56435 


8 

Gilmar 

1 

21 

0 

48 

0,00000 

1,00000 

94,00000 

-4,54329 


9 

Elaine 

1 

21 

0 

48 

0,00000 

1,00000 

94,00000 

-4,54329 

10 

Luiz Ovldio 

1 

22 

0 

48 

0,00000 

1,00000 

92,00000 

-4,52179 

11 

Sr^ulio 

1 

23 

0 

50 

0,00000 

1.00000 

91,00000 

-4,51086 

12 

Shirley 

1 

23 

0 

48 

0,00000 

1,00000 

91,00000 

-4,51086 


13 

Adriana 

1 

24 

0 

50 

0,00000 

1,00000 

89.00000 

-4,48864 

14 

Giulia 

1 

24 

0 

50 

0,00000 

1,00000 

89,00000 

-4.48864 

15 

Raimundo 

1 

25 

0 

48 

0,00000 

1.00000 

87,00000 

-4,46591 

_16_ 

isoraya 

1 

25 

0 

48 

0,00000 

1,00000 

87,00000 

-4,46591 

17 

[Retnaldo 

1 

26 

0 

33 

0,00000 

1,00000 

85,00000 

-4,44265 

18 

Zenilda 

1 

26 

0 

27 

0,00000 

1,00000 

85,00000 

-4,44265 


19 

Ester 

1 

26 

0 

33 

0.00000 

1,00000 

85,00000 

! “-4,44265 

20 

Lilian 

1 

26 

0 

27 

0,00000 

1,00000 

85,00000 

-4,44265 


21 

Jaqueline 

i 

26 

0 

33 

0,00000 

1,00000 

85,00000 

14,44265 ^ 

22 

Vivian 

i 

26 

0 

33 

0,00000 

1,00000 

85.00000 

-4,44265 

23 

Patricia 

i 

27 

0 

47 

0,00000 

1,00000 

79,00000 

-4.36945 

24 

In^cio 

i 

27 

0 

47 

0,00000 

1,00000 

79,00000 

-4,36945 


25 

Eduardo 

i 

28 

0 

47 

0.00000 

1,00000 

77,00000 

-4,34381 

2B. 

Gustavo 

i 

".29 " 

0 

27 

0,00000 

1,00000 

76,00000 

-4,33073 


2j_ 

Tatiana 

i 

30 

1 

28 

0,00000 

1,00000 

75,00000 

-4,31749 

28 

Rita 

i 

30 

1 

28 

0,00000 

1,00000 

75,00000 

-4.31749 


101 

Julia 

i 

89 

1 

25 

0,00000 

1.00000 

1,00000 

0.00000 

§| s| 

IsomatdriaLLi -299,005411 



Figura 17.7 Dados do arquivo TempoFormaturaCoxMaximaVerossimilhan^a.xIs. 


Por meio daTabela 17.6, podemos verificar que alguns tempos de monitoramento se repetem e, nestes casos, 

X (A .Xj i +/?2 ^2l) 

e y 1 11 2 21 nao se altera de uma linha para a linha seguinte. A Figura 17.7 apresenta parte des- 


tes dados presentes no arquivo em Excel. 

Cada celula da coluna I do Excel contem exatamente a expressao (17.10) para cada observa^ao. Como pode¬ 
mos verificar, quando /3 1 =j8 2 =0, o valor da somatoria do logaritmo da fun£ao de verossimilhan^a parcial e igual a 
-299,00541. Entretanto, deve haver uma combina^ao otima de valores dos parametros, de modo que a condi^ao 
proposta para a fun^ao-objetivo apresentada na expressao (17.11) seja obedecida, ou seja, que o valor da somato¬ 
ria do logaritmo da fun^ao de verossimilhan^a parcial seja o maximo possivel. 

Vamos entao abrir a ferramenta Solver do Excel. A fun^ao-objetivo esta na celula 1103, que e a nossa celula 
de destino e que devera ser maximizada. Alem disso, os parametros e (3 2 , cujos valores estao nas celulas L4 e L6, 
respectivamente, sao as celulas variaveis. A janela do Solver ficara como mostra a Figura 17.8. 

Ao clicarmos em Resolver e em OK, obteremos a solu^ao otima do problema de programa^ao linear. A 
Tabela 17.7 apresenta parte dos dados obtidos. 

Inicialmente, verificamos que o valor maximo possivel da somatoria do logaritmo da fun^ao de verossimi- 
lhan^a parcial e LL m , x = -273,78902. A resolu^ao deste problema gerou as seguintes estimativas dos parametros: 


j3 1 - -1,3174 
/3 2 = 0,0665 

obtidos por meio da estima^ao do modelo de regressao de Cox. Desta maneira, podemos escrever as expressoes 
da taxa de risco de ocorrencia de formatura (taxa de falha) h(t ) e da probabilidade de sobrevivencia a formatu- 
ra S(t) (ou seja, probabilidade de nao se formar), em fun^ao das variaveis explicativas bolsa e idade, da seguinte 
forma: 


4 (0 = K (0 


(-1,317 4.bolsa,+0,0665.idade,) 

r 


5,(0 = 


5 0i (0 6 


1,317 4.bokai+0,0665.idade ,) 


Podemos perceber que a coluna M do Excel apresenta as taxas de risco propriamente ditas correspon- 
dentes aos parametros /3 l e /3 2 , chamadas de hazard ratios. Estas taxas de risco sao e 13 ' e e P \ e representam, 
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Figura 17.8 Solver - Maximiza^ao da somatoria do logaritmo da fun^ao de verossimilhan^a parcial. 


respectivamente, os incrementos na taxa de risco de ocorrencia de formatura, relativamente a taxa de risco basal, 
quando se passa a receber bolsa de estudo ou quando se aumenta a idade do estudante em uma unidade, mantidas, 
em cada situa^ao, as demais condi£oes constantes. Logo, as taxas estimadas de risco de ocorrencia de formatura 
sao, para cada variavel explicativa: 

e p ' = 0,2678 

e p2 = 1,0688 

A Figura 17.9, embora mostre apenas parcialmente o banco de dados, apresenta os resultados obtidos pela 
modelagem. 

Estimados os parametros do modelo de riscos proporcionais de Cox, podemos propor duas interessantes per- 
guntas: 

Em media, em quanto se altera a taxa de risco de ocorrencia de formatura (hazard ratio) ao se 
conceder bolsa de estudo, mantidas as demais condi^oes constantes? 
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Tabela 17.7 Valores obtidos quando da maximiza^ao de LL. 


Estudante 

1 

Status 

Tempo 


X* 

(Pi-X u +P 2 .X 2l ) 

e (Pi .x u+ p 2 .x 2i ) 

^ e (Pi-Xu+P 2 -X 2I ) 

lUj>ti 

LL 

Roberto 

1 

15 

0 

24 

1,59675 

4,93698 

943,00808 

-5,25232 

Moara 

0 

17 

0 

24 

1,59675 

4,93698 

938,07109 

0,00000 

Leticia 

1 

18 

1 

52 

2,14226 

8,51870 

933,13411 

-4,69629 

Lucio 

1 

19 

1 

52 

2,14226 

8,51870 

924,61541 

-4,68711 

Cintia 

1 

20 

1 

52 

2,14226 

8,51870 

916,09671 

-4,67786 

Sandra 

1 

20 

0 

48 

3,19351 

24,37382 

916,09671 

-3,62661 

Gilmar 

1 

21 

0 

48 

3,19351 

24,37382 

883,20420 

-3,59005 

Elaine 

1 

21 

0 

48 

3,19351 

24,37382 

883,20420 

-3,59005 

Luiz Ovidio 

1 

22 

0 

48 

3,19351 

24,37382 

834,45656 

-3,53327 

Braulio 

1 

23 

0 

50 

3,32657 

27,84274 

810,08275 

-3,37056 


Emerson 

1 

43 

0 

33 

2,19554 

8,98483 

298,63825 

-3,50370 


Julia 

1 

89 1 

25 

0,34591 1,41328 

1,41328 

0,00000 

Somatoria 

100 

LL = (p v X h +p 2 .x 2l )-]n 

^ g (A.x„+/3 2 .x 2 ,} 


-273,78902 



A 

B 

c 

0 

E 

F 

G 

H 

1 

J| K 1_L | M 1 

i 

Estudante 

Status 

Tempo de 
Monitoramento 

Bolsa (Xi) 

Idade (X 2 ) 

m*Xu * fcj.Xa 

exp(fr.Xi; ♦ P 2 .Xa) 

E{exp(fc.X 1i + 
te.X a »seti>ti 

IU 


2 

Roberto 

1 

15 

0 

24 

1,59675 

4,93698 

943.00808 

-5,25232 

| coeficiente | hazard ratio | 

3 

Moara 

0 

17 

0 

24 

1.59675 

4,93698 

938,07109 

0,00000 


4 

Leticia 

1 

18 

1 

52 

2.14226 

8.51870 

933.13411 

-4,69629 

^ | - 1,3174 | 0,2678 | 

5 

Lucio 

1 

19 

1 

52 

2.14226 

8.51870 

924,61541 

-4.68711 


6 

Cintia 

1 

20 

1 

52 

2.14226 

8,51870 

916,09671 

-4.67786 

| 0,0666 | 1,0688 | 

7 

Sandra 

1 

20 

0 

48 

3.19351 

24,37382 

916.09671 

-3.62661 


8 

Gilmar 

i 

21 

0 

48 

3.19351 

24,37382 

883.20420 

-3,59005 

9 

Elaine 

i 

21 

0 

48 

3.19351 

24.37382 

883.20420 

-3.59005 

10 

Luiz Ovfdio 

i 

22 

0 

48 

3.19351 

24.37382 

834.45656 

-3.53327 

11 

Braulio 

i 

23 

0 

50 

3,32657 

27,84274 

810.08275 

-3.37056 

12 

Shirley 

i 

23 

0 

48 

3,19351 

24,37382 

810.08275 

-3.50363 

13 

Adriana 

i 

24 

0 

50 

3,32657 

27.84274 

27.84274 

757.86618 

757.86618 

-3 t 30393 

-3.30393 

14 

Giulia 

i 

24 

0 

50 

3.32657 

_15_ 

Raimundo 

i 

25 

0 

48 

3 V 19351 

24.37382 

702,18069 

-3.36068 

16 

Soraya 

.i ' 

25 

0 

48 

3.19351 

24.37382 

702.18069 

-3.36068 

_17_ 

Reinaldo 

i 

26 

0 

33 

2,19554 

8,98483 

653,43306 

-4.28670 

18 

Zenilda 

i 

26 

0 

27 

1.79635 

6,02760 

653,43306 

-4.68589 


19 

Ester 

i 

26 

0 

33 

2.19554 

8.98483 

653,43306 

-4.28670 

20 

Lilian 

i 

26 

0 

27 

1.79635 

6.02760 

653,43306 

-4,68589 

21_ 

Jaqueline 

i 

26 

0 

33 

2,19554 

8,98483 

653,43306 

-4.28670 

22_ 

Vivian 

i 

26 

0 

33 

2.19554 

8,98483 

653,43306 

-4.28670 

23_ 

Patricia 

i 

27 

o 

47 

3.12698 

22,80496 

605,43853 

-3.27897 

11 

Indcio 

i 

27 

0 

47 

3.12698 

22.80496 

605,43853 

-3.27897 

25 

Eduardo 

i 

28 

0 

47 

3.12698 

22,80496 

559,82861 

-3,20065 

26 

[Gustavo 

i 

29 

6 

27 

1.79635 

6.02760 

537.02365 

-4.48969 

2 7_ 

Tatiana 

i 

30 

1 

28 

0.54551 

1,72549 

530,99605 

-5.72925 

23_ 

101 

Rita 

Julia 

i 

i 

30 

1 

28 

6,54551 

1.72549 

530.99605 

-5.72925 

89 

1 

25 

0.34591 

1,41328 

1.41328 

0.00000 

102 

103 

ISomatdria LLi -273,78902) 


Figura 17.9 Obten$ao dos parametros quando da maximiza^ao de LL pelo Solver. 


Em media, em quanto se altera a taxa de risco de ocorrencia de formatura (hazard ratio ) quando 
se aumenta em 1 ano a idade media dos alunos, mantidas as demais condi^oes constantes? 

Antes de respondermos a estas importantes questoes, precisamos verificar se todos os parametros estimados 
sao estatisticamente significantes a um determinado mvel de confian^a. Se nao for este o caso, precisaremos re- 
estimar o modelo final, a fim de que o mesmo apresente apenas parametros estatisticamente significantes para, a 
partir de entao, ser possivel a elabora^ao de inferences e previsoes. 
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Portanto, tendo sido elaborada a estima^ao por maxima verossimilhan^a parcial dos parametros da equa^ao da 
taxa de risco de ocorrencia de formatura, partiremos para o estudo da significance estatistica geral do modelo 
obtido, bem como das significances estatisticas dos parametros. 

17.2.2. Significance estatistica geral e dos parametros do modelo de riscos 
proporcionais de Cox 

Inicialmente vamos estudar a significance estatistica geral do modelo que esta sendo proposto. O teste ^ pro- 
picia condi^oes a verifica^ao da significancia do modelo, uma vez que suas hipoteses nula e alternativa, para um 
modelo de riscos proporcionais de Cox, sao, respectivamente: 

H 0 :P 1 = P 2 =...= P k = 0 

H t : existe pelo menos um (3. ^ 0 

O teste X 2 e adequado para se avaliar a significancia conjunta dos parametros do modelo quando este for es- 
timado pelo metodo de maxima verossimilhan^a parcial, e propicia ao pesquisador uma verifica^ao inicial sobre 
a existence do modelo que esta sendo proposto, uma vez que, se todos os parametros estimados /3. (j — 1 , 2 ,..., 
k) forem estatisticamente iguais a 0, o comportamento de altera^ao de cada uma das variaveis X nao influenciara 
em absolutamente nada a taxa de risco de ocorrencia do evento em estudo para diferentes tempos de monitora- 
mento, relativamente a taxa de risco basal. Conforme ja apresentado nos Capitulos 13 e 14, a estatistica X 2 possui 
a seguinte expressao: 

X 2 =-2.(LL 0 -LL mix ) (17.12) 

em que LL Q e o valor da somatoria do logaritmo da fun^ao de verossimilhan^a parcial quando (3 1 = j8 2 — ... = /3 fe = 0, e 
LL f , x e o valor maximo possivel da somatoria do logaritmo da fun^ao de verossimilhan 9 a parcial. 

Voltando ao nosso exemplo, conforme calculado na secao 17.2.1, LL A = -299,00541 e LL , = -273,78902. 

r 7 T 7 0 7 max 

Desta forma, temos que: 

X 2 2gA , =-2. [-299,00541-(-273,78902)] = 50,4328 

Para 2 graus de liberdade (numero de variaveis explicativas consideradas na modelagem, ou seja, numero de 
parametros /3), temos, por meio daTabela D do apendice do livro, que o X 2 C ~ 5,991 (X 2 critico para 2 graus de 
liberdade e para o nivel de significancia de 5%). Desta forma, como o X 2 calculado X 2 cal = 50,4328 > X 2 C = 5,991, 
podemos rejeitar a hipotese nula de que todos os parametros /3 (j = 1,2) sejam estatisticamente iguais a zero. 
Logo, pelo menos uma variavel X e estatisticamente significante para explicar a taxa de risco de ocorrencia de 
formatura para diferentes tempos de monitoramento, relativamente a taxa de risco basal. Desta forma, teremos 
um modelo de riscos proporcionais de Cox estatisticamente significante para fins de previsao. 

Softwares como o Stata e o SPSS nao oferecem o X 2 C P ara os graus de liberdade definidos e um determinado 
nivel de significancia. Entretanto, oferecem o nivel de significancia do X 2 cal P ara estes graus de liberdade. Desta 
forma, em vez de analisarmos se X 2 cal > % 2 c i devemos verificar se o nivel de significancia do X 2 cai & menor do que 
0,05 (5%) a fim de darmos continuidade a analise do modelo. Assim: 

Se valor-P (ou P-value ou Sig. X 2 cal ou Prob. X 2 ca ) < 0,05, existe pelo menos um (3. ^ 0. 

Na sequencia, e preciso que o pesquisador avalie se cada um dos parametros do modelo de riscos proporcio¬ 
nais de Cox e estatisticamente significante e, neste sentido, a estatistica z de Wald sera importante para fornecer a 
significancia estatistica de cada parametro a ser considerado no modelo. Conforme j a discutido em capitulos an- 
teriores, a nomenclatura z refere-se ao fato de que a distribuigao desta estatistica e a distribui^ao normal padrao, 
e as hipoteses nula e alternativa do teste ar de Wald sao, para cada (3. (j = 1, 2,..., k), respectivamente: 

H 0 :/3 ; -O 

H, : 9*0 

A expressao para o calculo da estatistica z de Wald de cada parametro /3 e dada por: 



(17.13) 
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em que s.e. significa o erro-padrao (standard error) de cada parametro em analise. Dada a complexidade do calculo 
dos erros-padrao de cada parametro, nao o faremos neste momento, porem recomendamos a leitura de Hosmer, 
Lemeshow e May (2008) e Kleinbaum e Klein (2012). Os valores de s.e. de cada parametro, para o nosso exem- 
plo, sao: 

s.e. (fij = 0,280 
s.e. (/3 2 ) - 0,019 

Logo, como ja estimamos os parametros j3 ] e f3 2 , temos que: 


_ ft 

s.e.(ji,) 


-1,3174 

0,280 


-4,705 


z 


p 2 


ft 

s.e.(/3 2 ) 


0,0665 

0,019 


3,410 


Apos a obten^ao das estatisticas z de Wald, o pesquisador pode utilizar a tabela de distribui^ao da curva nor¬ 
mal padrao para obten^ao dos valores criticos a um dado nivel de significancia e verificar se cada teste rejeita 
ou nao a hipotese nula. Para o nivel de significancia de 5%, temos, por meio da Tabela E do apendice do livro, 
que o z c = -1,96 para a cauda inferior (probabilidade na cauda inferior de 0,025 para a distribui^ao bicaudal) e 
= 1,96 para a cauda superior (probabilidade na cauda superior tambem de 0,025 para a distribuigao bicaudal). 

Como no caso do teste ^ 2 , os pacotes estatisticos tambem oferecem os valores dos niveis de significancia dos 
testes z de Wald, o que facilita a decisao,ja que, com 95% de nivel de confian^a (5% de nivel de significancia), 
teremos: 


Se valor-P (ou P-value ou Sig. z al ou Prob. zj) < 0,05 para determinada variavel explicativa X, (3 ^ 0. 

Sendo assim, como todos os valores de z cd < -1,96 ou > 1,96, os valores-P das estatisticas z de Wald < 0,05 
para todos os parametros estimados e, portanto, ja chegamos ao modelo final de riscos proporcionais de Cox, sem 
que haja a necessidade de uma eventual aplica^ao do procedimento Stepwise estudado em capitulos anteriores do 
livro. Logo, a expressao final da taxa de risco de ocorrencia de formatura (taxa de falha) h(t) e, de fato: 


4 (0 k 0i (0 


(-1,3174 .bolsa: +0,0665. idade ,) 

,e K 


e, portanto, podemos retornar as nossas duas importantes perguntas, respondendo uma de cada vez: 

Em media, em quanto se altera a taxa de risco de ocorrencia de formatura (hazard ratio) ao se 
conceder bolsa de estudo, mantidas as demais condi^oes constantes? 

Fazendo uso da expressao da taxa de risco de ocorrencia de formatura, temos que: 

e" 1 - 3174 =0,2678 

Logo, mantidas as demais condi^oes constantes, a taxa de risco de ocorrencia de formatura ao se conceder 
uma bolsa de estudo e multiplicada por um fator de 0,2678, ou seja, e, em media, 73,22% menor. Em outras pa- 
lavras, o risco de um estudante se formar e, em media, 73,22% menor se ele possuir bolsa de estudo em rela^ao 
a nao possuir. Aparentemente contra-intuitivo, este resultado pode indicar que os alunos que possuem bolsas nao 
tern levado tao a serio a escola em que estudam, ao contrario daqueles que precisam pagar as mensalidades por 
conta propria e que, portanto, possuem interesse em concluir mais rapidamente o curso. 

Na se^ao 17.2.4 iremos estudar o teste Log-rank , que tera por intuito avaliar a magnitude e a significancia da 
diferen^a existente entre as curvas das fun^oes de sobrevivencia ao evento para aqueles que possuem e para aque- 
les que nao possuem bolsa de estudo. 

Em media, em quanto se altera a taxa de risco de ocorrencia de formatura (hazard ratio) quando 
se aumenta em 1 ano a idade media dos alunos, mantidas as demais condi 9 oes constantes? 

Para esta situa^ao, temos que: 

0,0665 

e 


= 1,0688 
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Logo, mantidas as demais condi^oes constantes, a taxa de risco de ocorrencia de formatura e, em media, multi- 
plicada por um fator de 1,0688 quando se aumenta em 1 ano a idade media dos estudantes, ou seja, e, em media, 
6,88% maior. Em outras palavras, o risco de determinado aluno se formar e, em media, 6,88% maior do que seu 
colega que e um ano mais novo. Este fato pode demonstrar o maior comprometimento dos mais velhos com os 
estudos, dada a maior maturidade e o maior interesse em concluir mais rapidamente o curso. 

Conforme podemos perceber, estes calculos utilizaram sempre as estimativas medias dos parametros. Partiremos 
agora para o estudo dos intervalos de confian^a destes parametros. 


17.2.3. Constru^ao dos intervalos de confian^a dos parametros do modelo de riscos 
proporcionais de Cox 

O intervalo de confian^a da taxa estimada de risco de ocorrencia do evento em estudo ( hazard ratio) cor- 
respondente a alteragao em cada parametro /3 (j = 1 , 2,..., fe), ao nivel de confian^a de 95%, pode ser escrito da 
seguinte forma: 


^±1,96 j>.e.(/3,)] 


(17.14) 


Com base nos dados do nosso exemplo, podemos elaborar aTabela 17.8, que apresenta os intervalos de con- 
fian^a das hazard ratios correspondentes a cada variavel explicativa. 


Tabela 17.8 Calculo dos intervalos de confian^a das hazard ratios. 


Parametro 

Taxa de Risco 
(Hazard Ratio) 

Intervalo de Confian^a da Taxa de Risco (95%) 

/j 


/j + i * -h-M 

(variavel bolsa) 

0,2678 

0,155 

0,464 

(variavel idade) 

1,0688 

1,029 

1,111 


Esses valores tambem serao obtidos quando da elabora^ao dessa modelagem por meio dos softwares Stata e 
SPSS, conforme mostraremos, respectivamente, nas se^oes 17.3 e 17.4. 

Se o intervalo de confian^a de determinada taxa de risco ( hazard ratio) contiver o 1, o correspondente pa¬ 
rametro sera considerado estatisticamente igual a zero para o nivel de confian^a com que o pesquisador estiver 
trabalhando e, desta forma, devera ser excluido do modelo final quando da elabora^ao do procedimento Stepwise. 

A decisao pela exclusao de determinada variavel X em um modelo de regressao para dados de sobrevi¬ 
vencia pode ser realizada por meio da analise direta da estatistica z de Wald de seu respectivo parametro f5 (se 
-z c < z cal < z c —» valor-P > 0,05 —» nao podemos rejeitar que o parametro seja estatisticamente igual a zero) ou 
por meio da analise do intervalo de confian^a da hazard ratio (se o mesmo contiver o 1). O Quadro 17.1 apre¬ 
senta os criterios de inclusao ou exclusao de parametros (3. (j = 1 , 2, ..., k) em modelos de regressao para dados 
de sobrevivencia. 


Quadro 17.1 Decisao de inclusao de parametros /J em modelos de regressao para dados de sobrevivencia. 


Parametro 

Estatistica z de Wald 
(para nivel de 
significancia a) 

Teste z (analise do 
valor-P para nivel de 
significancia a) 

Analise pelo Intervalo de 
Confian 9 a da Taxa de Risco 
(Hazard Ratio ) e Pl 

Decisao 

1 

-z „ < z . < z /0 

c a/2 cal c a/2 

valor-P > nivel de sig. a 

O intervalo de confianga 
contem o 1 

Excluir o 
parametro do 
modelo 

z ,> Z 

cal c a/2 

OU 

an 

valor-P < nivel de sig. a 

O intervalo de confianga nao 
contem o 1 

Manter o 
parametro no 
modelo 


Obs.: O mais comum em ciencias sociais aplicadas e a ado^ao do mvel de significancia a = 5%. 
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17.2.4. Teste Log-rank para estudo de diferen^as entre curvas de sobrevivencia 

Imagine que temos interesse em estudar a magnitude e a significancia da diferen^a eventualmente existen- 
te entre duas ou mais curvas de sobrevivencia ao evento para diferentes grupos estratificados por meio de um 
criterio definido. Para tanto, devemos elaborar o teste Log-rank , que e um teste X 2 e tern P or intuito verificar a 
existencia de diferen^as estatisticamente significantes entre as curvas das fun^oes de sobrevivencia ao evento para 
os diferentes grupos. E comum que este teste seja aplicado quando ha determinada variavel qualitativa, de modo 
que os grupos possam ser definidos com base nesta variavel. 

Para os dados do nosso exemplo, vamos elaborar o teste Log-rank para comparar as curvas das fun^oes de sobrevi¬ 
vencia a formatura para os estudantes que possuem e para os que nao possuem bolsa de estudo. Como o parametro 
/3 correspondente a esta variavel (bolsa) mostrou-se estatisticamente diferente de zero, ao mvel de significancia de 
5%, quando da estima^ao do modelo de riscos proporcionais de Cox, verificaremos que a diferen^a entre as duas 
curvas de sobrevivencia tambem sera estatisticamente significante a este mesmo nivel de significancia. 

O teste Log-rank e construido com base na compara^ao entre os valores reais (observados) e previstos do nu- 
mero de eventos para cada grupo em cada tempo de monitoramento t. Os valores previstos de ocorrencia de 
evento em cada t podem ser calculados da seguinte forma: 

• Grupo 1: 

•( e it+ e 2t +-'- + e Gt) (17.15) 

em que n corresponde a quantidade de observances que nao apresentaram evento ou censura ate o inicio do 
tempo de monitoramento t e e t representa a quantidade real de eventos que ocorrem para estas observances 
com tempo de monitoramento exatamente igual a t. Os subscritos 1,2,..., G referem-se ao grupo em analise, em 
que Geo numero total de grupos. 

• Grupo 2: 

-( e it +e 2t +'~ + e Gt) (17.16) 

• Grupo G: 

■( e it +e 2t + — + e Gt) (17.17) 
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• Grupo 2 (com bolsa, ou bolsa = 1): 


Vh = 


\ n U + H 2t J 


( e n +e 2,) 


e, portanto, a expressao da variancia em cada tempo de monitoramento t sera: 

r n 2, • ( e i« +e 2.) •[(«), + «2, ) - (<?K + e 2« )] 


Far, = - 


K+«2j 2 -K + ' 


(17.21) 


(17.22) 


Com base nos dados do nosso exemplo, podemos elaborar aTabela 17.9, que nos auxiliara no calculo da es- 
tatistica X 2 do teste Log-rank. 

Logo, com base na expressao (17.19), temos que: 


xh. 


X( e i« -e Pi<) 2 

t _ 


(25,55) 2 
16,65 


39,192 


Por meio daTabela D do apendice do livro, verificamos que X 2 C = 3,841 (X 2 critico para 1 grau de liberdade 
e para o nivel de significancia de 5%). Desta forma, como o X 2 calculado X 2 cat = 39,192 > X 2 C = 3,841 podemos 
rejeitar a hipotese nula do teste Log-rank de que as duas curvas de sobrevivencia ao evento sejam estatisticamente 
iguais, ao mvel de significancia de 5%. Logo, ha evidencias de que as curvas das probabilidades de sobreviven¬ 
cia a formatura sao diferentes para os estudantes que recebem bolsa de estudo em rela^ao aos que nao recebem. 


Tabela 17.9 Procedimento para o calculo da estatfstica x 2 do teste Log-rank. 


Tempo t 



e Pu 

n 21 

*2, 

e Pi, 

”l, +W 2, 

e u +C 2, 

*1, - e Pu 

Var t 

15 

57 

1 

0,57 


0 

0,43 

100 

l 

0,43 

0,25 

17 

56 

0 

0,00 


0 

0,00 

99 

0 

0,00 

0,00 

18 

55 

0 

0,56 

43 

1 

0,44 

98 

1 

-0,56 

0,25 

19 

55 

0 

0,57 

42 

1 

0,43 

97 

1 

-0,57 

0,25 

20 

55 

1 

1,15 

41 

1 

0,85 

96 

2 

-0,15 

0,48 

21 

54 

2 

1,15 

40 

0 

0,85 

94 

2 

0,85 

0,48 

22 

52 

1 

0,57 

40 

0 

0,43 

92 

1 

0,43 

0,25 

23 

51 

2 

1,12 

40 

0 

0,88 

91 

2 

0,88 

0,49 

24 

49 

2 

1,10 

40 

0 

0,90 

89 

2 

0,90 

0,49 

25 

47 

2 

1,08 

40 

0 

0,92 

87 

2 

0,92 

0,49 

26 

45 

6 

3,18 

40 

0 

2,82 

85 

6 

2,82 

1,41 

27 

39 

2 

0,99 

40 

0 

1,01 

79 

2 

1,01 

0,49 

28 

37 

1 

0,48 

40 

0 

0,52 

77 

1 

0,52 

0,25 

29 

36 

1 

0,47 

40 

0 

0,53 

76 

1 

0,53 

0,25 

30 

35 

2 

2,33 

40 

3 

2,67 

75 

5 

-0,33 

1,18 

31 

33 

0 

0,47 

37 

1 

0,53 

70 

1 

-0,47 

0,25 

32 

33 

1 

0,48 

36 

0 

0,52 

69 

1 

0,52 

0,25 

33 

32 

1 

0,47 

36 

0 

0,53 

68 

1 

0,53 

0,25 

34 

31 

2 

0,93 

36 

0 

1,07 

67 

2 

1,07 

0,49 

35 

29 

1 

0,45 

36 

0 

0,55 

65 

1 

0,55 

0,25 

36 

28 

1 

0,44 

36 

0 

0,56 

64 

1 

0,56 

0,25 

37 

27 

3 

1,29 

36 

0 

1,71 

63 

3 

1,71 

0,71 


(Continua) 
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Tabela 17.9 Procedimento para o calculo da estatfstica x 2 do teste Log-rank. (Contmuaqao) 
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Obviamente, este resultado ja era esperado, uma vez que o parametro (3 da variavel bolsa mostrou-se estatis- 
ticamente diferente de zero quando da estimagao do modelo de riscos proporcionais de Cox. Entre tanto, o tes¬ 
te Log-rank tambem pode ser bastante util para comparar curvas de sobrevivencia de diferentes grupos quando a 
variavel que discrimina estes grupos nao for inserida, como variavel preditora, no modelo de regressao de Cox. 
Alem disso, este teste tambem e util para avaliar a magnitude da diferenga existente entre curvas de sobrevivencia 
de grupos distintos, uma vez que, quanto maior for a estatistica maior sera a diferenga entre os comportamen- 
tos das curvas estudadas. 

Conforme estudamos, o teste Log-rank verifica se ha diferengas estatisticamente significantes a partir dos valo- 
res obtidos nas fungoes de sobrevivencia ao evento para diferentes grupos representados por categorias em uma 
variavel qualitativa. A rejeigao da hipotese nula do teste, a um determinado nivel de significancia, indica que ha 
pelo menos uma fungao que e diferente (caso haja mais de duas fungoes de sobrevivencia), ou as fungoes sao 
diferentes entre si (caso haja apenas duas fungoes de sobrevivencia). Para o caso de haver mais de duas fungoes 
de sobrevivencia (mais de duas categorias na variavel qualitativa), a comparagao direta entre duas das fungoes de 
sobrevivencia pode ser feita com base no teste de Breslow (Wilcoxon). 

173. PROCEDIMENTO KAPLAN-MEIER E MODELO DE RISCOS PROPORCIONAIS 
DE COX NO SOFTWARE STATA 

O objetivo desta segao nao e o de discutir novamente todos os conceitos inerentes as estatisticas do proce- 
dimento Kaplan-Meier e dos modelos de riscos proporcionais de Cox, porem propiciar ao pesquisador uma 
oportunidade de elaboragao do mesmo exemplo explorado ao longo deste capitulo por meio do Stata Statistical 
Software®. A reprodugao de suas imagens nesta segao tern autorizagao da StataCorp LP®. 

Voltando ao exemplo desenvolvido na segao 17.2,lembremos que o nosso professor tern o interesse em inves- 
tigar se a idade do aluno e o fato de ele possuir bolsa de estudo influenciam positiva ou negativamente o risco de 
o mesmo se formar mais rapidamente, dado um determinado tempo de monitoramento.Vamos direto ao banco 
de dados final construido pelo professor por meio dos questionamentos elaborados ao seu grupo de 100 estudan- 
tes. O banco de dados encontra-se no arquivo TempoFormaturaCox.dta e e exatamente igual ao apresentado 
parcialmente por meio daTabela 17.4. 

Inicialmente, podemos digitar o comando desc, que faz com que seja possivel analisarmos as caracteristicas 
do banco de dados, como o numero de observagoes, o numero de variaveis e a descrigao de cada uma delas. A 
Figura 17.10 apresenta este primeiro output do Stata. 

Alem disso, e interessante, inicialmente, que analisemos a tabela de frequences para a variavel status , que pode 
ser obtida por meio da digitagao do seguinte comando: 

tab status 


. desc 





obs: 

100 




vars: 

5 




size: 

3,100 

(99.9% of 

memory free) 



storage 

display 

value 


variable name 

type 

format 

label 

variable label 

estudante 

strll 

%lls 



status 

float 

%18.Og 

status 

status 

tempomonitor 

float 

%9.0g 


tempo de monitoramento ate a formatura ou 
ate a censura (meses) 

bolsa 

float 

%9. Og 

bolsa 

possui bolsa integral de estudo? 

idade 

float 

%9. Og 


idade ao termino do monitoramento (anos) 

| Sorted by: | 


Figura 17.10 Descrigao do banco de dados TempoFormaturaCox.dta. 
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A Figura 17.11 apresenta esta tabela de frequencias e, por meio da qual, podemos verificar que apenas 22% 
das observances da amostra sofreram censura quando dos respectivos monitoramentos. E importante ressaltar que 
nao ha obrigatoriedade alguma quanto a existencia de um percentual minimo de dados censurados em amostras 
utilizadas para a estima^ao de modelos de sobrevivencia. 


. tab status 




status | 

Freq. 

Percent 

Cum. 

Censura | 
Evento (Formatura) | 

22 

78 

22.00 

78.00 

22.00 

100.00 

Total | 

100 

100.00 



Figura 17.11 Distribui$ao de frequencias da variavel status. 


Antes da elabora^ao de qualquer analise de sobrevivencia, quer seja por meio do procedimento Kaplan-Meier, 
quer seja por meio de modelos de regressao de Cox, precisamos definir a variavel correspondente ao tempo de 
monitoramento (no nosso exemplo, a variavel tempomonitor) e a variavel correspondente ao status do evento que, 
no nosso exemplo, e uma dummy com valores iguais a 1 para o evento propriamente dito e valores iguais a 0 para 
a censura (variavel status). A digita^ao do seguinte comando permitira que estas informa^oes sejam transmitidas 
ao Stata, habilitando a elabora^ao da analise de sobrevivencia propriamente dita. A Figura 17.12 mostra o output 
gerado. 

stset tempomonitor, failure(status) id(estudante) 


1 . stset tempomonitor, 

failure(status) id(estudante) 



id: 

estudante 


I failure event: 

status != 0 & status < . 


1 obs. time 

interval: 

(tempomonitor[ n-1], tempomonitor] 


| exit on or before: 

failure 


100 

total obs. 



0 

exclusions 


100 

obs. remaining, representing 


100 

subjects 



78 

failures in single failure-per-subject data 


4765 

total analysis time at risk, at risk from t = 

0 



earliest observed entry t = 

0 



last observed exit t = 

89 


Figura 17.12 Input do tempo de monitoramento e do status do evento no Stata. 


Ressalta-se que o termo id(estudante) e optativo ja que, em muitos casos, o banco de dados podera nao 
apresentar identifica^ao para cada observa^ao. 

Antes de estimarmos o modelo de riscos proporcionais de Cox, vamos inicialmente elaborar o procedimento 
Kaplan-Meier para a defini^ao das fun^oes de sobrevivencia ao evento (formatura) e da taxa de risco de ocor- 
rencia deste evento. Os valores da fungao de sobrevivencia ao evento S(£) (probabilidade de sobrevivencia de 
Kaplan-Meier) para cada tempo de monitoramento podem ser diretamente obtidos por meio do seguinte co¬ 
mando: 

ltable tempomonitor status 

que gera o output apresentado na Figura 17.13. Note que os valores apresentados nas colunas Beg. Total, 
Deaths, Lost e Survival correspondem, respectivamente, aos valores calculados manualmente e apresentados nas 
colunas «, e t , c e S(t ) da Tabela 17.5. 

O mesmo output da Figura 17.13 pode ser obtido por meio do seguinte comando: 

sts list 








Modelos de Regressao para Dados de Sobrevivencia: Riscos Proporcionais de Cox 


. 1table tempomonitor status 


Interval 

Beg. 

Total 

Deaths 

Lost 

Survival 

Std. 

Error 

[95% Conf 

. Int.] 

15 

16 

100 

1 

0 

0.9900 

0.0099 

0.9311 

0.9986 

17 

18 

99 

0 

1 

0.9900 

0.0099 

0.9311 

0.9986 

18 

19 

98 

1 

0 

0.9799 

0.0141 

0.9220 

0.9949 

19 

20 

97 

1 

0 

0.9698 

0.0172 

0.9093 

0.9902 

20 

21 

96 

2 

0 

0.9496 

0.0220 

0.8831 

0.9787 

21 

22 

94 

2 

0 

0.9294 

0.0257 

0.8576 

0.9657 

22 

23 

92 

1 

0 

0.9193 

0.0274 

0.8451 

0.9588 

23 

24 

91 

2 

0 

0.8991 

0.0303 

0.8206 

0.9444 

24 

25 

89 

2 

0 

0.8789 

0.0328 

0.7966 
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Figura 17.13 Probabilidades de sobrevivencia ao evento S(t) para cada tempo de monitoramento. 
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Ja os valores da curva da fim^ao da taxa de risco acumulada de ocorrencia de formatura (taxa de falha h(t) 
acumulada de Nelson-Aalen) para cada tempo de monitoramento podem ser obtidos por meio da digita^ao do 
comando a seguir. Os outputs encontram-se na Figura 17.14 e correspondem exatamente aqueles calculados ma- 
nualmente e apresentados na ultima coluna daTabela 17.5. 

sts list, cumhaz 

Note que as colunas Fail e Net Lost da Figura 17.14 correspondem, respectivamente, as colunas Deaths e 
Lost da Figura 17.13. 

Caso haja a inten^ao de criarmos no banco de dados, para cada tempo de monitoramento, variaveis que cor¬ 
respondem, respectivamente, a fungao de sobrevivencia ao evento S(t) de Kaplan-Meier, a fun^ao da taxa de 
risco (ou falha) de ocorrencia deste evento h(t) e a fun^ao da taxa de falha acumulada de Nelson-Aalen, pode- 
mos digitar os seguintes comandos: 

sts generate St = s 
sts generate ht = h 

sts generate htacum = na 

A fim de que o banco de dados fique estruturado com tempos de monitoramento em ordem crescente, de- 
vemos digitar o seguinte comando: 

sort tempomonitor 

O output apresentado na Figura 17.15 mostra os tempos de monitoramento de cada observa^ao (em ordem 
crescente), assim como os valores das variaveis explicativas bolsa e idade e os respectivos valores das fun^oes S(t) 
de Kaplan-Meier, h(t ) e h(t ) acumulada de Nelson-Aalen. Este output e obtido por meio do seguinte comando: 

list tempomonitor bolsa idade St ht htacum 

Elaborado o procedimento Kaplan-Meier que, conforme discutimos, nao apresenta carater preditivo, embora defi- 
na os valores da fun^ao de sobrevivencia a formatura e da fim^ao da taxa de risco de ocorrencia deste evento com base 
nos tempos de monitoramento de cada estudante da amostra, partiremos para a esdma^ao do modelo de riscos propor- 
cionais de Cox, que e uma extensao natural do procedimento Kaplan-Meier, porem com carater preditivo, ja que in- 
clui, na estimagao, variaveis explicativas. Para a estima^ao deste modelo, devemos,portanto, digitar o seguinte comando: 

stcox bolsa idade, nohr 

O comando stcox elabora um modelo de riscos proporcionais de Cox estimado por maxima verossimilhan- 
$a parcial. Como ja foram definidas as variaveis referentes ao tempo de monitoramento ( tempomonitor) e ao status 
do evento (status) por meio do comando stset,nao ha necessidade de que seja informada a variavel dependente do 
modelo. Alem disso, o termo nohr faz com que sejam apresentadas, nos outputs , as estimates dos parametros 
e j8 2 do modelo, e nao as respectivas hazard ratios e^ x e e^ 2 (nohr significa no hazard ratios). 

Caso o pesquisador nao informe o nivel de confian^a desejado para a defini^ao dos intervalos dos parametros 
estimados, o padrao sera de 95%. Entretanto, se o pesquisador desejar alterar o nivel de confian^a dos intervalos 
dos parametros para, por exemplo, 90%, devera digitar o seguinte comando: 

stcox bolsa idade, nohr level(90) 

Iremos seguir com a analise mantendo o nivel padrao de confian^a dos intervalos dos parametros, que e de 
95%. Os resultados encontram-se na Figura 17.16 e sao exatamente iguais aos calculados na seqao 17.2. 

Inicialmente, o output da Figura 17.16 mostra o valor do logaritmo da fun^ao de verossimilhan^a parcial quan- 
do )S 1 — yS 2 == 0, que e igual a -299,00541 (iteration 0) e corresponde aos valores tambem obtidos pelo Excel 
quando da imposi^ao desta condi^ao, conforme ja apresentado naTabela 17.6 e na Figura 17.7 da se^ao 17.2.1. 
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Figura 17.14 Taxa defalha h(t) acumulada de Nelson-Aalen. 
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Figura 17.15 Banco de dados com tempo de monitoramento em ordem crescente, variaveis explicativas 
e fun^oes S(t )de Kaplan-Meier, h(t) e h(t )acumulada de Nelson-Aalen. 
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Figura 17.15 (Conf.) 
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Figura 17.16 Outputs do modelo de riscos proporcionais de Cox no Stata. 
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Alem disso, podemos tambem verificar que o valor maximo do logaritmo da fun^ao de verossimilhan^a parcial 
para o modelo final estimado e igual a -273,78902, que e exatamente igual ao valor calculado por meio do Solver 
do Excel (se$ao 17.2.1) e apresentado naTabela 17.7 e na Figura 17.9. 

Assim, fazendo uso da expressao (17.12), temos que: 

Xlg.i. = ~ 2* [“299,00541 — (—273,78902)] = 50,43 com valor — P( ou Prob. X 2 cal) = 0,000. 

Logo, com base no teste j£ 2 , podemos rejeitar a hipotese nula de que todos os parametros f3. (j — 1,2) sejam es- 
tatisticamente iguais a zero ao mvel de significancia de 5%, ou seja,pelo menos uma variavel X e estatisticamente 
significante para explicar a taxa de risco de ocorrencia de formatura para diferentes tempos de monitoramento, 
relativamente a taxa de risco basal. Desta forma, temos um modelo de riscos proportionals de Cox estatistica¬ 
mente significante para fins preditivos. 

Em rela^ao a significancia estatistica de cada um dos parametros estimados, como todos os valores de z al < -1,96 
ou > 1,96, os valores-P das estatisticas z de Wald < 0,05. Desta maneira, conforme ja estimado manualmente na se- 
£ao 17.2.1 por meio do Solver do Excel e apresentado na Figura 17.9, podemos escrever as expressoes finais da taxa 
de risco de ocorrencia de formatura (taxa de falha) e da probabilidade de sobrevivencia a formatura (probabilidade de 
nao se formar), com base na estimagao dos parametros fi e /3 2 das variaveis explicativas bolsa e idade, respectivamente, 
da seguinte forma: 

4 (0 

s,(t ) 

Entretanto, mais interessante do que a estima^ao dos parametros /3 1 e /3 2 e a obten^ao das estimates das ha¬ 
zard ratios de cada parametro, que nada mais sao do que e^ e e^ 2 , respectivamente. Para que os outputs apresen- 
tem diretamente as estimates das hazard ratios, podemos simplesmente excluir o termo nohr, digitando apenas: 

stcox bolsa idade 

Os resultados encontram-se na Figura 17.17. Note que, em vez dos coeficientes estimados dos parametros do 
modelo, sao apresentadas agora as estimates das hazard ratios de cada parametro. Os demais outputs sao iguais aos 
apresentados na Figura 17.16. 
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Figura 1 7.17 Outputs do modelo de riscos proporcionais de Cox no Stata - hazard ratios. 
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Como os valores-P das estatisticas z de Wald < 0,05 para todos os parametros estimados, podemos verificar 
que os intervalos de confian^a de cada hazard ratio nao contem o 1 e, portanto, ja chegamos ao modelo final de 
riscos proporcionais de Cox, sem que haja a necessidade de uma eventual aplica^ao do procedimento Stepwise . 
Se este nao tivesse sido o caso, seria recomendavel a estima^ao do modelo final por meio do seguinte comando: 

stepwise, pr(0.05): stcox bolsa idade 

Desta forma, podemos retornar as duas perguntas propostas ao final da se^ao 17.2.1: 

Em media, em quanto se altera a taxa de risco de ocorrencia de formatura (hazard ratio) ao se 
conceder bolsa de estudo, mantidas as demais condi^oes constantes? 

Em media, em quanto se altera a taxa de risco de ocorrencia de formatura (hazard ratio ) quando 
se aumenta em 1 ano a idade media dos alunos, mantidas as demais condi^oes constantes? 

As respostas agora podem ser dadas de maneira direta, ou seja, enquanto a taxa de risco de ocorrencia de for¬ 
matura ao se conceder uma bolsa de estudo e, em media e mantidas as demais condi^oes constantes, multiplicada 
por um fator de 0,2678 (73,22% menor), a taxa de risco de ocorrencia de formatura quando se aumenta em 1 
ano a idade media dos estudantes e, em media e tambem mantidas as demais condi^oes constantes, multiplicada 
por um fator de 1,0688 (6,88% maior). Estes valores sao exatamente os mesmos daqueles apresentados ao final 
da se^ao 17.2.2. 

Caso o pesquisador tenha o interesse em gerar uma variavel correspondente a fun^ao da taxa de risco basal acu- 
mulada ( cumulative baseline hazard), devera incluir o termo basechaz () ao comando stcox. Assim, podera digitar: 

stcox bolsa idade, basechaz(chazO) 

em que a variavel chazO corresponde a taxa de risco basal acumulada. 

Antes de gerarmos os graficos das fun^oes de sobrevivencia e da taxa de risco, devemos analisar se alguma das 
variaveis explicativas e dependente do tempo de monitoramento, o que violaria o principio da proporcionalidade 
que deve ser obedecido em modelos de riscos proporcionais de Cox. Para tanto, faremos uso dos termos tvc e 
texp quando da aplica^ao do comando stcox, a fim de que sejam criadas iterates entre as variaveis bolsa e idade 
e o tempo de monitoramento.Vamos, portanto, digitar o seguinte comando: 

stcox bolsa idade, nohr tvc(bolsa idade) texp(In(_t)) 

A itera^ao com o logaritmo natural do tempo foi escolhida por ser a mais comum em modelos que violam 
o principio da proporcionalidade, porem qualquer outra forma funcional poderia ser escolhida. Caso tivessemos 
omitido o termo texp (In (_t) ), teria sido verificado se cada uma das variaveis explicativas e dependente do tem¬ 
po de monitoramento com base em uma itera^ao linear. Os resultados da estima^ao auxiliar sao apresentados na 
Figura 17.18. 

Com base na analise destes resultados, podemos verificar que nenhuma das duas variaveis explicativas com 
itera^ao com o tempo de monitoramento (parte do output com nomenclatura tvc) e significante, a 5% de signi¬ 
ficance, o que indica que nao ha a viola^ao do principio da existencia de riscos proporcionais. 

Outro metodo bastante comum para se verificar o principio da proporcionalidade consiste em analisar os 
residuos escalonados de Schoenfeld, que podem ser obtidos apos a estima^ao do modelo final de riscos 
proporcionais de Cox. Como tivemos que estimar um modelo auxiliar para a verifica^ao do principio da pro¬ 
porcionalidade, devemos novamente estimar o nosso modelo final, por meio da digita^ao do seguinte comando: 

stcox bolsa idade 

Na sequencia, podemos digitar: 

stphtest, detail 

Enquanto o termo stphtest testa a proporcionalidade global do modelo estimado, a op^ao detail faz com 
que seja testada a proporcionalidade para cada variavel explicativa. Os resultados sao apresentados na Figura 17.19. 
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I . stcox bolsa idade, nohr tvc(bolsa idade) texp(In(_t)) 
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Figura 17.18 Outputs do modelo auxiliar para estudo da viola^ao do principio da proporcionalidade. 


. stphtest, detail 

Test of proportional-hazards assumption 
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Figura 17.19 Teste para verifica^ao de existencia de riscos proporcionais no Stata. 


Conforme podemos verificar por meio da analise da Figura 17.19, nao pode ser rejeitada a hipotese de exis¬ 
tencia de riscos proporcionais, tanto em termos globais, quanto para cada variavel explicativa considerada no 
modelo final estimado. 

Este diagnostico tambem pode ser feito com base na elabora^ao de graficos que apresentam a relagao entre os 
residuos escalonados de Schoenfeld de cada variavel explicativa e os tempos de monitoramento. Para que sejam 
elaborados estes graficos, devemos digitar os seguintes comandos, que correspondem, respectivamente, as varia- 
veis explicativas bolsa e idade. 

stphtest, plot(bolsa) msym(oh) 

stphtest, plot(idade) msym(oh) 

Os graficos gerados encontram-se, respectivamente, nas Figuras 17.20 e 17.21. 

As linhas praticamente horizontais nestes graficos sao mais um indicio de que nao ha viola^ao do principio 
da existencia de riscos proporcionais (proportionality assumption, ou PH Assumption, conforme apresentado nos 
graficos). 
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Figura 17.20 Diagnostico de riscos proporcionais - residuos escalonados de Schoenfeld ( bolsa ). 



Caso o principio da proporcionalidade seja violado em modelos de riscos proporcionais de Cox, a estima^ao 
do modelo passa a ser inadequada, sendo necessaria, neste caso, a estima^ao de um modelo conhecido por mode- 
lo de Cox com variavel tempo-dependente, que nao e objeto especifico deste capitulo. Para mais detalhes, 
sugerimos o estudo de Hosmer, Lemeshow e May (2008) e Kleinbaum e Klein (2012). 

Concluido este diagnostico, vamos, enfim, elaborar os graficos que podem ser gerados a partir das fun^oes de 
sobrevivencia e da taxa de risco que foram estimadas para o nosso modelo final. Inicialmente, vamos digitar o 
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v_ j 


Figura 17.22 Curva de probabiiidades de sobrevivencia a formatura. 


seguinte comando, que faz com que seja gerado, na Figura 17.22, o grafico da curva de probabiiidades de sobre¬ 
vivencia a formatura. 

s tcurve, survival 

Caso haja o interesse em elaborar um grafico com duas diferentes curvas de probabiiidades de sobrevivencia 
a formatura, estratificando os estudantes que recebem e os que nao recebem bolsa de estudo, pode-se digitar o 
seguinte comando: 

stcurve, survival atl(bolsa=0) at2(bolsa=l) 

O novo grafico gerado encontra-se na Figura 17.23 e, por meio do qual, podemos verificar que os compor- 
tamentos das probabiiidades de nao se formar sao diferentes entre aqueles que recebem e os que nao recebem 
bolsa. Este fato, embora ja comprovado pela significance estatistica da variavel dummy bolsa no modelo de riscos 
proporcionais de Cox, sera tambem verificado por meio do teste Log-rank a ser elaborado mais adiante. 

Imagine que tenhamos tambem o interesse em elaborar um grafico com fun^oes de sobrevivencia de tres 
grupos homogeneos de estudantes, com as seguintes caracteristicas: 

Grupo 1: Estudantes que possuem bolsa de estudo e que tern 24 anos de idade; 

Grupo 2: Estudantes que nao possuem bolsa de estudo e que tern 24 anos de idade; 

Grupo 3: Estudantes que nao possuem bolsa de estudo e que tern 47 anos de idade. 

Para tanto, precisamos, inicialmente, gerar uma nova variavel que corresponda a fun^ao de sobrevivencia basal 
(baseline survival). Para tanto, devemos estimar novamente o modelo de riscos proporcionais de Cox, porem agora 
com a inclusao do termo basesurv() ao final do comando stcox, como segue: 

stcox bolsa idade, nohr basesurv(survO) 

Note que a variavel survO, correspondente a fun^ao de sobrevivencia basal, foi criada no banco de dados. 
Assim, com base na expressao (17.8) apresentada na se^ao 17.2 e nos outputs da Figura 17.16, podemos digitar a 
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Cox proportional hazards regression 



bolsa=0 —— - bolsa=1 


Figura 17.23 Curvas de probabilidades de sobrevivencia a formatura para estudantes com e sem bolsa de estudo. 


nte sequencia de comandos, que gerara tres novas variaveis (survl, surv2 e surv3) correspondentes, respecti¬ 
ve, as fun^oes de sobrevivencia dos tres grupos de estudantes, bem como o grafico da Figura 17.24. 

en survl = survO A exp(-1.317371*1 + 0.0665315*24) 
en surv2 = survO A exp(-1.317371*0 + 0.0665315*24) 
en surv3 = surv0 A exp(-1.317371*0 + 0.0665315*47) 
raph twoway line survl surv2 surv3 tempomonitor, sort 



- survl . surv2 —- surv3 

V_ _ ) 


Figura 17.24 Curvas de probabilidades de sobrevivencia a formatura para tres diferentes grupos de estudantes. 






972 Manual de Analise de Dados: Estatfstica e Modelagem Multivariada com Excel®, SPSS® e Stata* 


Por meio da analise do grafico da Figura 17.24, podemos verificar que a probabilidade de sobreviver a forma- 
tura (nao se formar) e realmente maior para o grupo 1, composto por estudantes que possuem bolsa de estudo 
e sao mais jovens. Por outro lado, a probabilidade de nao se formar e menor para o grupo 3, composto por es¬ 
tudantes que nao possuem bolsa de estudo e apresentam idade mais avan^ada, conforme ja discutimos ao longo 
deste capitulo. 

Tomemos um aluno de cada grupo, apenas como exemplo: 

Grupo 1: 

Marcela, que possui bolsa de estudo e tern 24 anos de idade. Para esta estudante, que foi monitorada por 56 
meses, o valor da probabilidade basal e de 0,8536, conforme podemos verificar na variavel survO. Logo, com 
base na expressao (17.8), a probabilidade de esta aluna nao se formar, ou seja, de sobreviver ao evento, e de: 

A J-l,317371.(l)+0,0665315.(24)] 

(0,8536)' =0,8112 

cujo valor pode ser encontrado para esta aluna na variavel survt. 

Grupo 2: 

Robson, que nao possui bolsa de estudo e tern 24 anos de idade. Para este estudante, que foi monitorado 
por 45 meses, o valor da probabilidade basal e de 0,9024 (variavel survO). Logo, a probabilidade de este aluno 
nao se formar, ou seja, de sobreviver ao evento, e de: 

A J]—1,317371 .(0)+0,0665315 .(24)] 

■W, =(0,9024)' =0,6022 

cujo valor pode ser encontrado para este aluno na variavel surv2 . 

Grupo 3: 

Bianca, que nao possui bolsa de estudo e tern 47 anos de idade. Para esta estudante, que foi monitorada 
por 32 meses, o valor da probabilidade basal e de 0,9531 (variavel survO). Logo, a probabilidade de esta aluna 
nao se formar, ou seja, de sobreviver ao evento, e de: 

A J-l,317371.(0)+0,0665315.(47)] 

S Bi a„ca=(0,953lf =0,3343 

cujo valor pode ser encontrado para esta aluna na variavel surv3. 

Ja a curva das taxas de risco (taxas de falha) de ocorrencia de formatura pode ser obtida por meio da digita- 
<pao do seguinte comando: 

stcurve, hazard 

O grafico obtido encontra-se na Figura 17.25. Podemos observar que o comando stcurve, hazard faz com 
que seja gerado um grafico que elimina os degraus observados na fun^ao da taxa de risco de ocorrencia do even¬ 
to em estudo, por meio do alisamento da curva estimada. 

Analogamente a Figura 17.23, duas diferentes curvas da taxa de risco de ocorrencia de formatura tambem 
podem ser obtidas no mesmo grafico, em que sao separados os comportamentos dos estudantes que recebem da- 
queles que nao recebem bolsa. Para tanto, podemos digitar o seguinte comando: 

stcurve, hazard atl(bolsa=0) at2(bolsa=l) 

O grafico gerado encontra-se na Figura 17.26. 

Esta figura mostra que os estudantes que possuem bolsa de estudo apresentam menores riscos de se formar 
do que aqueles que nao possuem bolsa de estudo, para um determinado tempo de monitoramento e mantidas as 
demais condi^oes constantes. Conforme ja discutimos, a taxa de risco de se formar para um estudante com bolsa 
de estudo e, em media, 73,22% menor. 

Podemos agora elaborar o grafico da curva das taxas de risco de se formar (taxas de falha) acumuladas de 
Nelson-Aalen. Para tanto, vamos digitar os seguintes comandos: 

s tcurve, cumhaz 

stcurve, cumhaz atl(bolsa=0) at2(bolsa=l) 
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Figura 17.25 Curva das taxas de risco (taxas de falha) de ocorrencia de formatura. 



Figura 17.26 Curvas das taxas de risco de ocorrencia de formatura para estudantes com e sem bolsa de estudo. 

Os graficos gerados encontram-se, respectivamente, nas Figuras 17.27 e 17.28. Enquanto o grafico da Fi¬ 
gura 17.27 apresenta a curva geral da taxa de risco acumulada de Nelson-Aalen obtida para o nosso modelo final 
de riscos proporcionais de Cox, o grafico da Figura 17.28 mostra o comportamento das curvas de Nelson-Aalen 
para os estudantes que possuem e os que nao possuem bolsa de estudo. 

Conforme ja discutimos, os graficos das Figuras 17.26 e 17.28 tambem mostram a existencia de comporta- 
mentos discrepantes entre os estudantes que possuem e os que nao possuem bolsa de estudo, no que diz respeito 
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V_/ 

Figura 17.27 Curva das taxas de falha acumuladas de Nelson-Aalen. 


--N 



bolsa=0 - bolsa=1 


V_ J 

Figura 17.28 Curvas das taxas de falha acumuladas de Nelson-Aalen para estudantes com e sem bolsa de estudo. 


ao risco de se formarem. Desta forma, vamos elaborar o teste Log-rank que, conforme discutido na se^ao 17.2.4, 
e um teste X 2 que tern P or intuito verificar a existencia de diferen^as estatisticamente significantes entre as cur¬ 
vas das fun^oes de sobrevivencia ao evento (ou de risco de ocorrencia do evento) para diferentes grupos estra- 
tificados por meio de uma variavel categorica ou qualitativa (no caso, a variavel bolsa). Para a elabora^ao deste 
teste, devemos digitar o seguinte comando: 


sts test bolsa 
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. sts 

test bolsa 




failure d: 

status 

I analysis time _t: 

tempomonitor 



id: 

estudante 

I Log-rank 

test for equality of survivor functions 1 


1 

Events 

Events 

bolsa 

1 

observed 

expected 





Nao 

1 

56 

30.45 

Sim 

1 

22 

47.55 





Total 

I 

78 

78.00 



chi2(1) = 

39.19 



Pr>chi2 = 

0.0000 


Figura 17.29 Resultado do teste Log-rank no Stata. 


O resultado do teste Log-rank encontra-se na Figura 17.29 e e exatamente igual ao calculado manualmente 
na se^ao 17.2.4 com base na constru^ao daTabela 17.9. 

Com base neste resultado, podemos comprovar que as curvas das probabilidades de sobrevivencia a formatu- 
ra (ou das taxas de risco de haver formatura) sao diferentes para os estudantes que recebem bolsa de estudo em 
rela^ao aos que nao recebem. 

Se, por exemplo, a variavel bolsa apresentasse, por alguma razao, tres categorias (1 = sent bolsa; 2 = bolsa parcial; 
3 = bolsa integral), poderiamos, da mesma forma, elaborar o teste Log-rank, em que a rejei^ao da hipotese nula, a 
um determinado mvel de significance, indicaria que pelo menos uma fun^ao de sobrevivencia seria diferente 
das demais. 

Entretanto, conforme apenas mencionado ao final da se^ao 17.2.4, caso quisessemos elaborar tres testes in- 
dependentes, a fim comparar as fun^oes de sobrevivencia, duas a duas, deveriamos elaborar o teste de Breslow 
(Wilcoxon), digitando a seguinte sequencia de comandos: 


sts 

test 

bolsa 

if 

bolsa == 1 

| bolsa == 2, 

w 

sts 

test 

bolsa 

if 

bolsa == 1 

| bolsa == 3, 

w 

sts 

test 

bolsa 

if 

bolsa == 2 

| bolsa — 3, 

w 


Esta sequencia de comandos nao faz sentido neste exemplo, dado que a variavel bolsa possui apenas duas ca¬ 
tegorias. 

Por fim, podemos avaliar a qualidade do ajuste do modelo estimado com base nos residuos de Cox & Snell. 
Para tanto, devemos solicitar que o Stata gere tais residuos apos a estima^ao do modelo final de riscos proporcio¬ 
nais de Cox, digitando a seguinte sequencia de comandos: 

quietly stcox bolsa idade, nohr 

predict cs, csnell 

Na sequencia, devemos reespecificar a analise de sobrevivencia, por meio do comando stset, fazendo com 
que a variavel temporal seja agora a variavel correspondente aos residuos de Cox & Snell (variavel cs).V< amos, 
portanto, digitar o seguinte comando: 

stset cs, failure(status) 

Feito isso, vamos, com base nesta nova especifica^ao, gerar a variavel correspondente a fun^ao da taxa de falha 
acumulada de Nelson-Aalen, digitando o seguinte comando: 

sts generate htacum2 = na 
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E, desta forma, podemos elaborar um grafico que compara o comportamento da nova fun^ao da taxa de falha 
acumulada de Nelson-Aalen com os residuos de Cox & Snell, representados por meio de uma reta diagonal (45°). 
Este grafico (Figura 17.30) pode ser obtido por meio da digita^ao do seguinte comando: 

graph twoway line htacum2 cs cs, sort 



Com base na analise do grafico da Figura 17.30, podemos verificar que a fun^ao da taxa de falha acumulada 
segue a diagonal (residuos de Cox & Snell) de forma muito proxima, porem as diferen^as aumentam para valores 
maiores de tempos de monitoramento, o que e muito comum para modelos que levam em considera^ao a exis- 
tencia de dados censurados. Podemos concluir, portanto, que, em rela^ao aos dados da amostra do nosso exemplo, 
o modelo final estimado apresenta uma adequada qualidade de ajuste. 


17.4. PROCEDIMENTO KAPLAN-MEIER E MODELO DE RISCOS PROPORCIONAIS 
DE COX NO SOFTWARE SPSS 

Apresentaremos agora o passo a passo para a elabora^ao dos nossos exemplos por meio do IBM SPSS Statistics 
Software®. A reprodu^ao de suas imagens nesta se^ao tern autoriza^ao da International Business Machines 
Corporation®. 

Seguindo a mesma logica proposta quando da aplica^ao dos modelos por meio do software Stata, ja partire- 
mos para o banco de dados construido pelo professor a partir dos questionamentos feitos a cada um de seus 100 
estudantes. Os dados encontram-se no arquivo TempoFormaturaCox.sav e, apos o abrirmos, vamos inicial- 
mente clicar em Analyze -» Survival -» Kaplan-Meier..., a fim de elaborarmos o procedimento Kaplan- 
Meier.A caixa de dialogo da Figura 17.31 sera aberta. 

Devemos selecionar a variavel tempomonitov (tempo de monitoramento ate a formatura ou ate a censura) e 
inclui-la na caixa Time. Ao inserirmos a variavel status na caixa Status, devemos clicar em Define Event... 
e, na sequencia, em Single value, inserir o valor 1. Este procedimento informa que o evento de interesse 
(formatura) e defmido pelo valor 1 na variavel status . Estes passos podem ser observados, respectivamente, nas 
Figuras 17.32 e 17.33. 
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Figura 17.31 Caixa de dialogo para elabora^ao do procedimento Kaplan-Meier no SPSS. 



Figura 17.32 Caixa de dialogo para elabora^ao do procedimento Kaplan-Meier no SPSS com inclusao 
da variavel temporal e da variavel correspondente ao evento de interesse {status). 


Note, por meio da Figura 17.33, que o evento de interesse nao precisa necessariamente ser definido pelo valor 
1. Caso a variavel status apresente diversas categorias e o pesquisador deseje estudar a sobrevivencia ao evento re- 
presentado por mais de uma categoria, podera fazer uso desta caixa de dialogo. Feito este procedimento, podemos 
clicar em Continue. 

Na sequencia, em Options..., devemos selecionar, conforme mostra a Figura 17.34, a op^ao Survival taMe(s), 
que gerara a curva de probabilidades de sobrevivencia a formatura (S ( t)) para cada tempo de monitoramento. 
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%„ Kaplan-Meier: Define Event For Stat... 


Value(s) indicating event has occurred 
©Single value: i 
© Range of values: through 

© List of values: 



Figura 17.33 Defini^ao do evento de interesse. 


r Kaplan-Meier: Options 

-Statistics- 

0 Survival tablets) 

□ Mean and median survival 

□ Quartiles 


-Plots- 

O Survival 

O One minus survival 

□ Hazard 

□ Log Survival 



Figura 17.34 Sele$ao da op$ao SumvaD table(s) para defini$ao das probabilidades de sobrevivenda 


0\/Q0tr\ ( C/*\ \ 


Ao clicarmos em Continue, retornamos a caixa de dialogo principal. Por fim, em Save..., devemos selecio- 
nar a opfao Survival, conforme mostra a Figura 17.35. Esta op$ao faz com que seja gerada uma nova variavel 
no banco de dados, correspondente a fun$ao de sobrevivenda ao evento (probabilidades de cada estudante nao 
se formar, ou seja, de sobreviver a formatura). 

Vamos agora clicar em Continue e em OK. O output que gera a fun$ao de sobrevivenda de Kaplan-Meier 
encontra-se na Figura 17.36. 

A coluna Cumulative Proportion Surviving at the Time - Estimate da tabela apresentada na 
Figura 17.36 corresponde as probabilidades de sobrevivenda a formatura para cada estudante, ou seja, a pro- 
babilidade de nao se formar. O nao preenchimento de algumas celulas desta coluna indica que tais valores sao 
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Figura 17.35 Sele^ao da op^ao Survival para gerar no banco de dados as probabilidades 
de sobrevivencia a formatura para cada estudante. 


Survival Table 



ID 

Time 

Status 

Cumulative Proportion Surviving at 

the Time 

N of Cumulative 

Events 

N of Remaining 

Cases 

Estimate 

Std. Error 

1 

Roberto 

15,000 

Evento 

,990 

,010 

1 

99 

2 

Moara 

17,000 

Censura 



1 

98 

3 

Leticia 

18,000 

Evento 

,980 

,014 

2 

97 

4 

Lucio 

19,000 

Evento 

,970 

,017 

3 

96 

5 

Cintia 

20,000 

Evento 



4 

95 

6 

Sandra 

20,000 

Evento 

,950 

,022 

5 

94 

7 

Elaine 

21,000 

Evento 



6 

93 

8 

Gilmar 

21,000 

Evento 

,929 

,026 

7 

92 

9 

Luiz Ovfdio 

22,000 

Evento 

,919 

,027 

8 

91 

10 

Braulio 

23,000 

Evento 



9 

90 

11 

Shirley 

23,000 

Evento 

,899 

,030 

10 

89 

12 

Adriana 

24,000 

Evento 



11 

88 

13 

Giulia 

24,000 

Evento 

,879 

,033 

12 

87 

14 

Raimundo 

25,000 

Evento 



13 

86 

15 

So raya 

25,000 

Evento 

,859 

,035 

14 

85 

16 

Ester 

26,000 

Evento 



15 

84 

17 

Jaqueline 

26,000 

Evento 



16 

83 

18 

Lilian 

26,000 

Evento 



17 

82 

19 

Reinaldo 

26,000 

Evento 



18 

81 

20 

Vivian 

26,000 

Evento 



19 

80 

21 

Zenilda 

26,000 

Evento 

,798 

,040 

20 

79 

22 

Inacio 

27,000 

Evento 



21 

78 

23 

Patricia 

27,000 

Evento 

,778 

,042 

22 

77 

24 

Eduardo 

28,000 

Evento 

,768 

,042 

23 

76 

25 

Gustavo 

29,000 

Evento 

,758 

,043 

24 

75 

26 

Horacio 

30,000 

Evento 



25 

74 

27 

Marcia 

30,000 

Evento 



26 

73 

28 

Rita 

30,000 

Evento 



27 

72 

29 

Rodolfo 

30,000 

Evento 



28 

71 

30 

Tatiana 

30,000 

Evento 

,707 

,046 

29 

70 

31 

Ernani 

31,000 

Evento 

,697 

,046 

30 

69 

32 

Bianca 

32,000 

Evento 

,687 

,047 

31 

68 

33 

Adriano 

33,000 

Evento 

,677 

,047 

32 

67 

34 

Edinalva 

34,000 

Evento 



33 

66 

35 

Itamar 

34,000 

Evento 

,657 

,048 

34 

65 

36 

Geovani 

35,000 

Evento 

,647 

,048 

35 

64 

37 

Kamal 

36,000 

Evento 

,636 

,048 

36 

63 

38 

Bruna 

37,000 

Evento 



37 

62 

39 

Pedro 

37,000 

Evento 



38 

61 

40 

Viviane 

37,000 

Evento 

,606 

,049 

39 

60 


Figura 17.36 Fun^ao de sobrevivencia S(t) de Kaplan-Meier com tempo de monitoramento em ordem crescente. 

(Continue) 





980 Manual de Analise de Dados: Estatistica e Modelagem Multivariada com Excel®, SPSS® e Stata® 


41 

Juliana 

38,000 

Evento 

,596 

,049 

40 

59 

42 

Claudio 

39,000 

Evento 



41 

58 

43 

Felipe 

39,000 

Evento 



42 

57 

44 

Marcelo 

39,000 

Evento 



43 

56 

45 

Mariana 

39,000 

Evento 

,556 

,050 

44 

55 

46 

Alexandre 

40,000 

Evento 

,546 

,050 

45 

54 

47 

Ana Lucia 

41,000 

Evento 

,535 

,050 

46 

53 

48 

Cri stina 

42,000 

Evento 

,525 

,050 

47 

52 

49 

Emerson 

43,000 

Evento 

,515 

,050 

48 

51 

50 

Cristiane 

44,000 

Evento 

,505 

,050 

49 

50 

51 

Robson 

45,000 

Evento 

,495 

,050 

50 

49 

52 

Franklin 

46,000 

Evento 

,485 

,050 

51 

48 

53 

Gabriela 

47,000 

Evento 

,475 

,050 

52 

47 

54 

Dalila 

48,000 

Evento 

,465 

,050 

53 

46 

55 

Camilo 

49,000 

Evento 

,455 

,050 

54 

45 

56 

Pietro 

50,000 

Evento 

,444 

,050 

55 

44 

57 

Paola 

51,000 

Evento 

,434 

,050 

56 

43 

58 

Cecilia 

52,000 

Evento 



57 

42 

59 

Edson 

52,000 

Evento 



58 

41 

60 

Filomena 

52,000 

Evento 

,40 4 

,049 

59 

40 

61 

Guilherme 

53,000 

Evento 

,394 

,049 

60 

39 

62 

Marina 

54,000 

Evento 

,384 

,049 

61 

38 

63 

Ana Paula 

55,000 

Evento 

,374 

,049 

62 

37 

64 

Marcela 

56,000 

Censura 



62 

36 

65 

Sheila 

56,000 

Censura 



62 

35 

66 

Danielle 

57,000 

Censura 



62 

34 

67 

Cesar 

59,000 

Censura 



62 

33 

68 

Adelino 

60,000 

Censura 



62 

32 

69 

Angelica 

60,000 

Censura 



62 

31 

70 

Fabiana 

60,000 

Censura 



62 

30 

71 

Leandro 

60,000 

Censura 



62 

29 

72 

Flavia 

61,000 

Evento 



63 

28 

73 

Nuno 

61,000 

Evento 

,348 

,049 

64 

27 

74 

Andrea 

62,000 

Evento 



65 

26 

75 

Gisele 

62,000 

Evento 

,322 

,048 

66 

25 

76 

Rodrigo 

63,000 

Evento 

,309 

,048 

67 

24 

77 

Lidia 

64,000 

Evento 

,296 

,048 

68 

23 

78 

Rebeca 

65,000 

Evento 

,284 

,047 

69 

22 

79 

Frederico 

66,000 

Evento 

,271 

,047 

70 

21 

80 

Estela 

67, 000 

Evento 

,258 

,046 

71 

20 

81 

Carolina 

69,000 

Evento 

,245 

,046 

72 

19 

82 

Leonor 

70,000 

Censura 



72 

18 

83 

Amanda 

71,000 

Censura 



72 

17 

84 

Luciana 

72,000 

Censura 



72 

16 

85 

Cleber 

73,000 

Censura 



72 

15 

86 

Karina 

75,000 

Censura 



72 

14 

87 

Lucia 

77,000 

Censura 



72 

13 

88 

Antonio 

78,000 

Censura 



72 

12 

89 

Raquel 

79,000 

Censura 



72 

11 

90 

Cida 

80,000 

Censura 



72 

10 

91 

Afonso 

81,000 

Censura 



72 

9 

92 

Alessandra 

82,000 

Censura 



72 

8 

93 

Giovanna 

82,000 

Censura 



72 

7 

94 

Pilar 

82,000 

Censura 



72 

6 

95 

Renata 

83,000 

Evento 

,204 

,053 

73 

5 

96 

Fernanda 

84,000 

Evento 

,163 

,056 

74 

4 

97 

Renato 

86,000 

Evento 

,122 

,055 

75 

3 

98 

Zilda 

87,000 

Evento 

,082 

,050 

76 

2 

99 

Anna Luiza 

88,000 

Evento 

,041 

,038 

77 

1 

100 

Julia 

89,000 

Evento 

,000 

,000 

78 

0 


Figura 17.36 ( Cont .) 
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iguais ao ultimo valor apresentado, conforme estudamos quando calculamos manualmente estas probabilidades 
(Tabela 17.5) e quando elaboramos este procedimento no Stata (Tabelas 17.13 e 17.15). 

A selegao da opgao Survival em Save... fez com que fosse gerada uma nova variavel no banco de dados, 
nomeada de SUR_1, que corresponde exatamente a estas probabilidades de nao se formar para cada estudante, 
ainda nao se levando em consideragao a influencia de variaveis explicativas. 

Caso tenhamos o interesse em verificar, antes mesmo da estimagao do modelo de riscos proporcionais de Cox, 
se existem diferengas estatisticamente significantes entre as curvas das fungoes de sobrevivencia a formatura para 
os estudantes que possuem e os que nao possuem bolsa de estudo, podemos, ja neste momento, elaborar o teste 
Log-rank. Para tanto, ainda em Analyze —> Survival —> Kaplan-Meier..., devemos selecionar a variavel bolsa 
(possui bolsa integral de estudo?) e inclui-la na caixa Factor, conforme mostra a Figura 17.37. Na sequencia, em 
Compare Factor..., devemos selecionar a op^ao Log rank, conforme mostra a Figura 17.38. 



Figura 17.37 Inclusao da variavel bolsa em Factor para elaboragao do teste Log-rank no SPSS. 



Figura 17.38 Selegao da opgao Log rank. 
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Note que, neste exemplo, a op£ao Breslow nao foi selecionada, uma vez que a variavel bolsa possui apenas 
duas categorias. Ao clicarmos em Continue e em OK, obteremos o output apresentado na Figura 17.39. Nao 
devemos nos esquecer de desmarcar a op^ao Survival em Save... antes de clicarmos em OK. 


Overall Comparisons 



Test of equality of survival distributions for the different 
levels of possui bolsa integral de estudo?. 


Figura 17.39 Resultado do teste Log-rank no SPSS. 


O resultado do teste Log-rank (Figura 17.39) e exatamente igual ao calculado manualmente na se^ao 17.2.4 
com base na constru^ao daTabela 17.9 e tambem obtido pelo Stata (Figura 17.29). Com base nos resultados des- 
te teste, podemos verificar que as curvas das probabilidades de sobrevivencia a formatura para os estudantes que 
possuem bolsa de estudo e para os estudantes que nao possuem bolsa de estudo sao estatisticamente diferentes 
entre si. 

Partiremos, entao, para estima^ao do modelo de riscos proporcionais de Cox propriamente dito. Para tanto, 
devemos clicar em Analyze —» Survival —> Cox Regression..., Uma caixa de dialogo como a apresentada na 
Figura 17.40 sera aberta. 

Seguindo a mesma logica do procedimento Kaplan-Meier, devemos incluir a variavel tempomonitor em Time 
e a variavel status em Status. Em Define Event..., devemos selecionar a op^ao Single value e inserir o valor 1. 
As variaveis bolsa e Hade devem ser inseridas em Covariates, conforme mostra a Figura 17.41. O procedimento 



Figura 17.40 Caixa de dialogo para estima^ao do modelo de riscos proporcionais de Cox no SPSS. 
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Figura 117.411 Caixa de dialogo para estima^ao do modelo de riscos proporcionais de Cox no SPSS com inclusao da variavel 
temporal, da variavel correspondente ao evento de interesse ( status ) e das variaveis explicativas bolsa e idade. 

Enter , que tambem deve ser selecionado (Method: Enter), inclui todas as variaveis na estima^ao, mesmo aquelas 
cujos parametros sejam estatisticamente iguais a zero, diferentemente do procedimento Stepwise (no SPSS, a mo- 
delagem de riscos proporcionais de Cox e elaborada por meio de procedimento analogo conhecido por Forward 
Wald). O procedimento Enter corresponde exatamente ao procedimento padrao elaborado pelo Excel (mode¬ 
lo apresentado na Figura 17.9) e tambem pelo Stata quando se aplica diretamente o comando stcox. Como ja 
sabemos que as duas variaveis explicativas terao parametros estatisticamente diferentes de zero a 5% de nivel de 
significance, nao chegaremos a estimar o modelo por meio do procedimento Forward Wald. Entretanto, o pesqui- 
sador podera selecionar tal op^ao caso isso seja necessario. 

Em Plots..., devemos marcar as op^oes Survival e Hazard em Plot Type, conforme mostra a Figura 17.42. 

Na sequencia, podemos clicar em Continue. Em Save..., devemos selecionar as op^oes Survival function e 
Partial residuals, conforme mostra a Figura 17.43. Este procedimento gerara no banco de dados tres novas vari¬ 
aveis. Enquanto a primeira corresponde a probabilidade de sobrevivencia ao evento para cada observa^ao apos a 
estima^ao do modelo de riscos proporcionais de Cox, as duas outras correspondem aos residuos de Schoenfeld de 
cada observagao da amostra para cada uma das variaveis explicativas. Com base nestes residuos, sera feita, adiante, 
a verifica^ao do principio da proporcionalidade das variaveis explicativas.Tambem devemos clicar em Continue 
ao termino desta sele^ao. 

Por fim, em Options..., vamos selecionar a op^ao Cl for exp(B) 95% em Model Statistics, que faz com 
que sejam calculados os intervalos de confian^a das hazards ratios de cada variavel explicativa com 95% de conflan- 
^a.Vamos tambem selecionar a op^ao final Display baseline function, que faz com que seja calculado o risco 
basal acumulado em fun^ao da evolu^ao do tempo de monitoramento. Estas sele^oes podem ser visualizadas na 
Figura 17.44. 

Na sequencia, podemos clicar em Continue e em OK. 
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Figura 17.42 Sele^ao das op$oes de graficos a serem elaborados no SPSS. 



Figura 17.43 Sele^ao para gerar os residuos de Schoenfeld no banco de dados. 


Os resultados da estima^ao do modelo de riscos proporcionais de Cox e os graficos elaborados sao entao 
apresentados, porem, antes de partirmos para a discussao dos outputs , vamos verificar a validade do principio 
da proporcionalidade, por meio da analise dos residuos de Schoenfeld gerados no banco de dados quando da 
sele^ao da opfao Save... Partial residuals e representados pelas variaveis PR1_1 e PR2_1, correspondentes, 
respectivamente, as variaveis bolsa e idade. A ausencia de correla^ao estatisticamente significante entre os resi¬ 
duos de Schoenfeld e a variavel temporal indicara que nao ha a viola^ao do principio da existencia de riscos 
proporcionais. 
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Cox Regression: Options 


-Kctfsi SMesScs- 


H O for espCSJ t? T ‘ % 


t rPrctefJttSj'forSSepi'i'fse' 


: ,05 Retrieval!: ,io 


O Ccrrefagor! of estimates 1 i___ 

Display model informafion i 
©Meadistep ' iterations: 

@ At last step S Display Pasetine ftmc&on 


Continue ■ Canoe! i Harp 


Figura 17.44 Opgoes para estimagao do modelo de Cox no SPSS. 


Como os residuos de Schoenfeld sao calculados apenas para as observa^oes que nao apresentam dados cen¬ 
surados, devemos inicialmente clicar em Data —> Select Cases..., marcar a op^ao If condition is satisfied e 
clicar no botao If.... Uma janela como a apresentada na Figura 17.45 sera aberta. Devemos inserir a condi^ao 
status = 1, conforme mostra a mesma figura, e clicar em Continue e em OK. O banco de dados passa a elimi- 
nar, temporariamente, as observa^oes com dados censurados, selecionando apenas os estudantes que se formaram 
ao termino do tempo de monitoramento (.status = 1). 



t A estudanfe 

status [status] 

$ tempo de monitors... 

possui boisa fntegr... 
4 ^ idade aofermino do.. 
$ Survival function fSLL 
Survival function eva. 
Partiaf residual for b... 
(A Partial residual for L. 




Fundon group: 


All 

Arithmetic 

CDF & Noncental CDF 
Conversion 
Current Date/Time 
Date Arithmetic 
Date Creation 


Functions and Speaal Variables: 



Cancel . Help 


jura 17.45 Selegao das observances sem dados censurados. 
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Como o tempo de monitoramento inicia-se, no nosso exemplo, em 15 meses, e como temos o interesse em 
calcular as correlates entre as variaveis PRl_t e PR2_1 (residuos de Schoenfeld para as variaveis bolsa e idade, 
respectivamente) e a variavel temporal, e necessario que seja criado um ranking, a partir da variavel tempomonitor, 
com valor inicial igual a 1. Assim, devemos clicar em Transform —» Rank Cases..., para que seja aberta uma 
caixa de dialogo como a da Figura 17.46. 

Na sequencia, devemos inserir a variavel tempomonitor na Caixa Variable(s), conforme mostra a Figura 17.47, 
e, em Rank Types..., devemos selecionar apenas a op^ao Rank, como mostra a Figura 17.48. 




Rank Cases 




RS status {status] 

4^ tempo de monito... 

possui bolsa inte... 
$ idade ao termino... 
$ Survival function [... 
<Q> Survival function... 
Partial residual fo... 
Partial residual 
IX ctahic = 1 rni TP 


Assign Rank 1 to- 
© Smallest value 
© Largest value 






Variable(s): 



0 Display summary tables 


Reset 


Cancel 


Help 


Figura 17.46 Caixa de dialogo para cria^ao de ranking . 


I s 


Rank Cases 


<£o status (status) 

(Q> possui bolsa integr... 
$ idade ao termino do... 
^ Survival function (SU... 

Survival function eva... 
<£2> Partial residual for b... 

Partial residual fori... 
(A, status = 1 (FILTER)... 


Assign Rank 1 to- 
© Smallest value 
© Largest value 


CK 


Variable(s): 




tempo de monitors.. 


Rsn?? Types. 


Ties., 



0 Display summary tables 


Paste 


[ Reset 


Help' 


Figura 17.47 Sele^ao da variavel tempomonitor para cria^ao de ranking. 
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Rank Cases: Types 


(3 

□ Savage score 

O Fractional rank 


□ FracScna! rant: as % 

□ Sum of case weights 

□ Kies: / 


O Proportion estimates □ Norma! scores 
rPrcpoif on Estimation Formula-— --—- 

I 05:0.IT Tf O^Su-A 0_3C , J?-'\?8ef€»sr 


Continue 


Cancel i 



Figura 17.48 Selegao da opgao Rank. 


Ao clicarmos em Continue e em OK, sera criada no banco de dados uma nova variavel, nomeada de 
Rtempomo (Rank of tempomonitor). Como temos a inten^ao de analisar as significances estatisticas das correlates 
dos residuos de Schoenfeld com esta nova variavel, vamos clicar em Analyze —> Correlate —> Bivariate — Na 
caixa de dialogo que sera aberta, devemos inserir, em Variables, as variaveis Rtempomo (Rank of tempomonitor), 
PR1_1 (Partial residual for bolsa) e PR2_i (Partial residual for idade), conforme mostra a Figura 17.49. 

Ao clicarmos em OK, sera gerada a matriz de correlates apresentada na Figura 17.50. 


Bivariate Correlations 


Variables: 


f states 'status! 


tempo ds monitors... 
<A possui toctsa integr... 
f? idade ao tirmino do... 
<$? Survival function [SU... 
<A Survival function eva... 
<A status = 1 (RLTERJ... 


Rank of tempomonit... 
<A Partial residual for to... 
<A Partial residua! for i... 


■ Correlation CoeSdentS”-—~— 
B Pearson O Kendatfs tau-to □ Spearman 


Test of Significance- 

ro-iacted @ One-tailed 


B Rag significant correlations 


options 


Footstrap 


if If ; if ' if" i 

K j Fasts ' Reset ; Cancel ■ ho:p 


Figura 17.49 Caixa de dialogo para o calculo das correlates entre os residuos de Schoenfeld 
e o ranking definido a partir da variavel temporal no SPSS. 
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Correlations 



Rank of 
tempomonitor 

Partial 
residual for 
bolsa 

Partial 
residual for 
idade 

Rank of tempomonitor Pearson Correlation 

1 

-.033 

-,156 

Sig. (2-tailed) 


,772 

,173 

N 

78 

78 

78 

Partial residual for bolsa Pearson Correlation 

-,033 

1 

-.072 

Sig. (2-tailed) 

,772 


,532 

N 

78 

78 

78 

Partial residual for idade Pearson Correlation 

-.156 

-.072 

1 

Sig. (2-tailed) 

,173 

,532 


N 

78 

78 

78 


Figura 17.50 Matriz de correlates entre os residuos de Schoenfeld e o ranking definido a partir da variavel temporal. 


Como as correlates entre os residuos de Schoenfeld para as duas variaveis explicativas (bolsa e idade) e a vari¬ 
avel Rank of tempomonitor nao sao estatisticamente diferentes de zero ao nivel de significancia de 5% ( Sig . > 0,05 
para todas as correlates), podemos afirmar que nao ha viola^ao do principio da existencia de riscos propor- 
cionais. Ressalta-se que a analise das correlates dos residuos de Schoenfeld com a variavel temporal na forma 
de ranking e mais uma maneira de se diagnosticar a validade do principio da proporcionalidade, alem daquelas 
elaboradas quando da estima^ao do modelo de riscos proporcionais de Cox no Stata (Figuras 17.18 a 17.21 da 
se^ao 17.3). 

Conforme ja discutimos, caso o principio da proporcionalidade tivesse sido violado, poder-se-ia pensar na ela¬ 
borate de um modelo de Cox com variavel tempo-dependente, cuja estima^ao nao e objeto deste livro. 

Verificada a existencia de riscos proporcionais, vamos, entao, partir para a analise dos resultados obtidos quan¬ 
do da estima^ao do modelo propriamente dito (Figura 17.51). 

Esta figura apresenta os resultados mais importantes obtidos por meio da estimate do modelo de riscos 
proporcionais de Cox, que sao exatamente iguais aqueles obtidos quando da estima^ao do mesmo modelo no 
Excel e no Stata. Entretanto, vale a pena comentar que, enquanto o Stata apresenta o calculo do valor maximo 
obtido da somatoria do logaritmo da fun^ao de verossimilhan^a parcial, como tambem calculado pelo Excel, 
o SPSS apresenta o dobro deste valor, e com sinal invertido. Assim, enquanto obtivemos valor de LL igual a 
-299,00541 para o modelo com parametros (3 1 e /3 2 iguais a 0 (conforme pode ser verificado pelaTabela 17.6 e 


Block 0: Beginning Block 

Omnibus Tests of 
Model Coefficients 


-2 Log Likelihood 


598,011 


Block 1: Method ■ Enter 

Omnibus Tests of Model Coefficients 3 


-2 Log 
Likelihood 

Overall (score) 

Change From Previous Step 

Change From Previous Block 

Chi-square 

df 

Sig. 

Chi-square 

df 

Sig. 


df 

Sig. 

547,578 

49,960 

2 

,000 

50,433 

2 

,000 


2 

.000 


a. Beginning Block Number 1. Method = Enter 


Variables in the Equation 









95,0% ClforExp(B) j 


B 

SE 

Wald 

df 

Sig. 

Exp(B) 

Lower 

Upper 

bolsa 

-1,317 

■1 


1 

,000 

,268 

,155 

,464 

idade 

,067 

■ESI 


1 

,001 

1,069 

1,029 

1,111 


Figura 17.51 Outputs do modelo de riscos proporcionais de Cox no SPSS - procedimento Enter. 
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Survival Table 


Time 

Baseline 

Cum Hazard 

At mean of covariates | 

Survival 

SE 

Cum Hazard 

15,00 

,001 

,993 

,007 

,007 

18,00 

,002 

,987 

,010 

,014 

19,00 

.003 

,980 

,012 

,020 

20,00 

,005 

,966 

,015 

,034 

21,00 

,008 

,952 

,018 

,049 

22,00 

,009 

,945 

,020 

,057 

23,00 

,012 

,930 

,022 

,073 

24,00 

,014 

,914 

,025 

,090 

25,00 

,017 

.897 

,028 

,109 

26,00 

,027 

,844 

,034 

,169 

27,00 

,030 

,826 

,036 

,191 

28,00 

,032 

,817 

,037 

,203 

29,00 

,034 

,807 

,038 

.214 

30,00 

,044 

,758 

,042 

.277 

31,00 

,046 

,748 

,043 

,290 

32,00 

,048 

,738 

,044 

,304 

33,00 

.050 

.727 

,045 

,318 

34,00 

,055 

,706 

,046 

,348 

35,00 

,057 

,695 

,047 

,363 

36,00 

,060 

,685 

,047 

,379 

37,00 

,068 

,651 

,049 

,429 

38,00 

,071 

,640 

,050 

,446 

39,00 

.082 

,593 

,051 

,522 

40,00 

,086 

,582 

,052 

,542 

41,00 

,089 

,570 

,052 

,562 

42,00 

,092 

,558 

,053 

,583 

43,00 

,096 

,546 

,053 

,605 

44,00 

,099 

,534 

,053 

,627 

45,00 

,103 

,522 

,054 

,650 

46,00 

,106 

,510 

,054 

,673 

47,00 

,110 

,498 

,054 

,696 

48,00 

,114 

,486 

,054 

.721 

49,00 

,118 

.474 

,054 

,746 

50,00 

,122 

,462 

,054 

,773 

51,00 

,127 

,449 

,054 

,801 

52,00 

.142 

,408 

,054 

,896 

53,00 

.147 

,394 

,054 

,930 

54,00 

,153 

,381 

.054 

,965 

55,00 

,158 

,368 

,053 

1,001 

61,00 

,171 

,338 

,053 

1,084 

62,00 

,185 

,310 

.052 

1,171 

63,00 

.192 

,296 

,052 

1,217 

64,00 

,200 

,283 

.051 

1,263 

65,00 

,208 

,269 

,051 

1,314 

66,00 

.217 

.254 

,050 

1,372 

67,00 

,228 

,236 

,049 

1,442 

69,00 

,242 

.217 

,048 

1,529 

83,00 

,286 

,163 

,053 

1,811 

84,00 

,353 

,107 

,051 

2,234 

86,00 

,490 

,045 

.033 

3,099 

87,00 

.777 

,007 

,013 

4,913 

88,00 

1,267 

,000 

,001 

8,016 


Figura 17.51 ( Cont .) 


pelas Figuras 17.7, 17.16 e 17.17) e igual a -273,78902 para o modelo final (Tabela 17.7 e Figuras 17.9, 17.16 
e 17.17), o SPSS apresenta valores de -2LL iguais, respectivamente, a 598,011 (Block 0: Beginning Block) e a 
547,578 (Block 1: Method = Enter). 

Alem disso, o output Omnibus Tests of Model Coefficients (Block 1: Method = Enter) tambem apre¬ 
senta a estatistica ^ = 50,433, Sig. ^ = 0,000 < 0,05), ja calculada manualmente na se^ao 17.2.2 e tambem ja 
apresentada nas Figuras 17.16 e 17.17 e, por meio da mesma, podemos rejeitar a hipotese nula de que todos os 
parametros /3. (j = 1,2) sejam estatisticamente iguais a zero, ao nivel de significancia de 5%. Logo,pelo menos uma 
variavel X e estatisticamente significante para explicar a taxa de risco de ocorrencia de formatura para diferentes 
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tempos de monitoramento, relativamente a taxa de risco basal e, portanto, temos um modelo de riscos propor- 
cionais de Cox estatisticamente significante para fins de previsao. 

Com base no output Variables in the Equation da Figura 17.51, como todos os valores-P (Sig .) das estatlsti- 
cas z deWald < 0,05,podemos escrever as expressoes finais da taxa de risco de ocorrencia de formatura (taxa de 
falha) e da probabilidade de sobrevivencia a formatura (probabilidade de nao se formar), com base na estima^ao 
dos parametros (3 1 e (3 2 das variaveis explicativas bolsa e idade, respectivamente, da seguinte forma: 


hi(t) = h 0i (t)J 


- 1,317. bolsaj +0,067. i dade •) 


4 ( 0 = 4 ( 0 * 


(-1,317.bolsoi+0,067.idadeA 


O output Variables in the Equation ainda apresenta as hazard ratios de cada parametro estimado (Exp(B)), 
que correspondem ao que foi manualmente calculado pelo Excel (Figura 17.9) e tambem ao que foi obtido no 
Stata (Figura 17.17), com os respectivos intervalos de confian^a.Assim como discutido nas se^oes 17.2.2 e 17.3, por 
meio deste output podemos afirmar que, enquanto a taxa de risco de ocorrencia de formatura ao se conceder uma 
bolsa de estudo e, em media e mantidas as demais condi^oes constantes, multiplicada por um fator de 0,268 (73,2% 
menor), a taxa de risco de ocorrencia de formatura quando se aumenta em 1 ano a idade media dos estudantes e, 
em media e tambem mantidas as demais condi^oes constantes, multiplicada por um fator de 1,069 (6,9% maior). 

O ultimo output gerado, Survival Table, apresenta os valores do risco basal acumulado ( Baseline Cum Hazard) 
e, por meio destes, podemos propor tres perguntas: 

1. Qual a probabilidade de a estudante Marcela nao se formar, sabendo-se que ela possui bolsa de 
estudo e tem 24 anos de idade? 

2. Qual a probabilidade de o estudante Robson nao se formar, sabendo-se que ele nao possui bolsa 
de estudo e tem 24 anos de idade? 

3. Qual a probabilidade de a estudante Bianca nao se formar, sabendo-se que ela nao possui bolsa 
de estudo e tem 47 anos de idade? 


Vamos a solu^ao destes questionamentos: 


1. Marcela, que possui bolsa de estudo e tem 24 anos de idade. 

Para esta estudante, que foi monitorada por 56 meses, o valor da probabilidade basal e o mesmo de quern foi 
monitorado por 55 meses, visto que todos os estudantes que foram monitorados por 56 meses apresentaram 
dados censurados. Ao contrario do Stata, que fornece diretamente o valor da probabilidade basal, o SPSS 
fornece o risco basal acumulado ( Baseline Cum Hazard). Logo, e preciso que seja elaborado o seguinte calculo 
para a defini^ao da probabilidade basal de estudantes que foram monitorados por 56 meses, como a Marcela: 


^0 Marcela e 


_ -0,158 


0,8536 


cujo valor e igual ao que e fornecido diretamente pelo Stata quando da cria^ao da variavel survO (se^ao 17.3). 
Logo, a probabilidade de esta aluna nao se formar, ou seja, de sobreviver ao evento, e de: 

[-l,317.(l)+0,067.(24)] 

S M a t ceia=(0,8536) e =0,8112 


cujo valor pode ser encontrado para esta aluna na variavel SUR__2, criada pelo SPSS quando da sele^ao da 
op^ao Save... Survival function. 

2. Robson, que nao possui bolsa de estudo e tem 24 anos de idade. 

Para este estudante, que foi monitorado por 45 meses, o valor da probabilidade basal e calculado da seguinte forma: 


J 0 Robson 


-0,103 
= e 


0,9024 


Logo, a probabilidade de este aluno nao se formar, ou seja, de sobreviver ao evento, e de: 


J Robson 


= (0,9024)' 


-l,317.(0)+0,067.(24)] 


= 0,6022 


cujo valor tambem pode ser encontrado para este aluno na variavel SUR_2. 
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3. Bianca, que nao possui bolsa de estudo e tem 47 anos de idade. 

Para esta estudante, que foi monitorada por 32 meses, o valor da probabilidade basal e calculado da 
seguinte forma: 


—0,048 


0 Bianca 


0,9531 


Logo, a probabilidade de esta aluna nao se formar, ou seja, de sobreviver ao evento, e de: 


[-l,317.(0)+0,067.(47)] 

S Bl anca=(0,953l) e =0,3343 

cujo valor tambem pode ser encontrado para esta aluna na variavel SUR_2. 

Por fim, apresentamos, respectivamente nas Figuras 17.52 e 17.53, o grafico da curva de probabilidades de so¬ 
brevivencia a formatura e o grafico da curva das taxas de falha acumuladas de Nelson-Aalen. 


f Survival Function at mean of covariates 



tempo de monitoramento ate a formatura ou ate a censura (meses) 

V_ J 


Figure 17.52 Curva de probabilidades de sobrevivencia a formatura. 


Os graficos das Figuras 17.52 e 17.53 sao iguais aos gerados pelo Stata e apresentados, respectivamente, nas 
Figuras 17.22 e 17.27. 

Caso tenhamos a inten^ao de continuar trabalhando com o banco de dados original, nao devemos nos esque- 
cer de selecionar a op^ao All cases em Data Select Cases..., 

Assim, caso haja a inten^ao de se elaborarem graficos das curvas de probabilidades de sobrevivencia a for¬ 
matura e da taxa de falha acumulada de ocorrencia de formatura para cada categoria da variavel qualitativa 
(estudantes com bolsa de estudo e estudantes sem bolsa de estudo), devemos, em Categorical..., selecionar a 
variavel bolsa e inseri-la na caixa Categorical Covariates, visto que esta variavel e qualitativa. Alem disso, em 
Change Contrast, devemos selecionar a op^ao First em Reference Category, uma vez que queremos ana- 
lisar a influencia de se ter bolsa de estudo (categoria com valor 1 no banco de dados) sobre a probabilidade de 
nao se formar em rela^ao a nao se ter bolsa de estudo (categoria de referenda com valor 0 no banco de dados), 
conforme mostra a Figura 17.54. Apos clicarmos em Continue, devemos, em Plots..., selecionar a variavel 
bolsa (definida como categorica na caixa de dialogo Categorical...) e inseri-la em Separates Lines for, con- 
forme mostra a Figura 17.55. 
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/-N 

Hazard Function at mean of covariates 



tempo de monitoramento ate a formatura ou ate a censura (meses) 

v._y 


Figura 17.53 Curva das taxas de falha acumuladas de Nelson-Aalen. 


Ijr Cox Regression: Define Categorical Covariates 


Covariates: Categorical Covariates: 



Figura 17.54 Sele^ao da variavel explicativa qualitativa e defini^ao da categoria de referenda. 


Elaborado este procedimento final, podemos clicar em Continue e em OK. Os graficos das Figuras 17.56 
e 17.57, iguais, respectivamente, aos graficos das Figuras 17.23 e 17.28 gerados pelo Stata, mostram, de fato, que 
as probabilidades de sobreviver a formatura (de nao se formar) sao maiores para os estudantes que possuem bol- 
sa de estudo, ou seja, o risco de haver formatura para estes estudantes e menor. As diferen^as entre as curvas sao 
estatisticamente significantes, conforme verificado pelo teste Log-rank. 







FSgura 17.56 Curvas de probabilidades de sobrevivencia a formatura para estudantes com e sem bolsa de estudo. 
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Figura 17.57 Curvas da taxa de falha acumulada de Nelson-Aalen para estudantes com e sem bolsa de estudo. 


17.5. CONSIDERA0ES FINAIS 

A analise de sobrevivencia tem por objetivo principal estudar o comportamento das curvas da fun^ao de 
sobrevivencia ao evento e da fun^ao da taxa de risco (taxa de falha) de ocorrencia do evento em questao, com 
base nos tempos de monitoramento das observances de uma amostra e levando-se em considera£ao a existencia 
de dados censurados. Se o estudo se restringir somente a este fato, pode-se elaborar um procedimento Kaplan- 
Meier. Entretanto, caso o pesquisador tenha o interesse em verificar como se comportam estas fun^oes a partir 
de altera^oes em determinadas variaveis preditoras, podera estimar modelos de regressao para dados de sobrevi¬ 
vencia, como os semiparametricos, representados pelo modelo de riscos proporcionais de Cox, e os parametricos, 
representados, por exemplo, pelos modelos exponencial,Weibull ou Gompertz que, embora nao tratados especi- 
ficamente neste livro, sao brevemente discutidos no apendice deste capitulo. 

Os modelos de regressao para dados de sobrevivencia, embora apresentem inumeras possibilidades de apli- 
ca^ao em diversas areas do conhecimento, ainda sao pouco explorados em campos como logistica, marketing 
ou mercado financeiro. Os modelos semiparametricos de riscos proporcionais de Cox sao os mais conhecidos e 
utilizados em ciencias biomedicas, ecologia, economia, contabilidade e atuaria, pela simplicidade de estima^ao e 
facilidade de interpreta^ao dos resultados. Entretanto, e fundamental que o pesquisador verifique a validade do 
principio da proporcionalidade inerente a estes modelos e, caso tal principio seja violado, pode-se partir para a 
estimanao de modelos de Cox com variavel tempo-dependente. 

Os modelos de regressao para dados de sobrevivencia sao estimados por maxima verossimilhanna e, assim co¬ 
mo outros modelos de dependencia, devem ser definidos com base no uso correto do software escolhido. Alem 
disso, a inclusao preliminar de potenciais variaveis explicativas do fenomeno em estudo deve ser sempre feita com 
base na teoria subjacente e na propria intuinao do pesquisador. 

17.6. EXERCICIOS 

1. Uma corretora de titulos e valores mobiliarios deseja estudar o comportamento de seus clientes (pessoas fisi- 
cas) no uso do seu Home Broker , com o intuito de investigar quais variaveis podem influenciar o retorno a plata- 
forma eletronica para a compra de a^oes de companhias abertas brasileiras. Logo, o evento de interesse refere-se a 
compra de a^oes pelo Home Broker e, para tanto, a corretora coletou uma amostra de 50 clientes e os monitorou, 
atenta a ocorrencia do evento de interesse. Alem disso, tambem ficou atenta a ocorrencia de censuras para alguns 
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clientes ao termino de determinados periodos de monitoramento, decorrentes, principalmente, de encerramento 
de contrato. Por fim, preencheu um banco de dados com variaveis de cada cliente, tendo por intuito elaborar 
uma analise preditiva, por meio da estima^ao de um modelo de riscos proporcionais de Cox. O objetivo da cor- 
retora e examinar os efeitos destas variaveis sobre a taxa de risco de ocorrencia do evento, ou seja, sobre a taxa 
de risco de haver nova transa^ao de compra de a^oes em sua plataforma eletronica e, portanto, investigar como 
o comportamento destas variaveis pode influenciar a redu^ao da probabilidade de sobrevivencia ao evento para 
cada tempo de monitoramento. Como a empresa gera receita a cada transa^ao efetuada (taxa de corretagem), este 
estudo e de fundamental importancia. 

As variaveis levantadas, para cada cliente, foram: 


Variavel 

Descrifao 

id 

Variavel string que varia de 01 a 50 e que identifica o cliente da corretora. 

tempo 

Tempo de monitoramento de cada cliente (dias). 

compra 

Variavel binaria que indica o evento (compra de agoes no Home Broker = 1) ou a censura 
(encerramento do contrato com a corretora = 0). 

idade 

Idade do cliente (anos). 

sexo 

Sexo do cliente (feminino = 0; masculino = 1). 

renda 

Renda mensal familiar (R$). 

perfil 

Perfil de investimento declarado pelo cliente na assinatura do contrato (conservador = 1; 
moderado = 2; arrojado = 3). 


Os dados encontram-se nos arquivos HomeBroker.sav e HomeBroker.dta. Pede-se: 

a. Elabore o procedimento Kaplan-Meier e apresente uma tabela com as probabilidades de sobrevivencia ao 
evento S(t ), a taxa de falha h(t) e a taxa de falha acumulada de Nelson-Aalen, com tempos crescentes de 
monitoramento. 

b. Estime um modelo de riscos proporcionais de Cox, com a inclusao de todas as variaveis preditoras. Nao 
se esque^a de transformar a variavel perfil em duas dummies , com o perfil considerado conservador sendo a 
categoria de referenda. 

c. Em rela^ao ao modelo estimado, pode-se rejeitar, com base no teste % 2 , a hipotese nula de que todos os pa- 
rametros )3 .. (j = 1,..., 5) sejam estatisticamente iguais a zero ao nivel de significancia de 5%, ou seja, que pelo 
menos uma variavel X seja estatisticamente significante para explicar a taxa de risco de ocorrencia de compra 
de agoes no Home Broker para diferentes tempos de monitoramento, relativamente a taxa de risco basal? 

d. Ainda em rela^ao ao modelo estimado no item (b), pode-se afirmar que uma ou mais variaveis preditoras 
mostraram-se estatisticamente nao significantes, ao nivel de significancia de 5%, para explicar a taxa de ris¬ 
co de ocorrencia do evento em estudo? Se sim, qual(is)? 

e. Se a resposta do item anterior foi afirmativa, estime novamente o modelo, porem por meio do procedi¬ 
mento Stepwise (Forward Wald , caso a op^ao seja pela estima^ao no SPSS). 

f. Quais as expressoes finais da taxa de risco de ocorrencia de compra de a^oes (taxa de falha) e da proba¬ 
bilidade de sobrevivencia a compra de a^oes (probabilidade de nao haver compra de a^oes), com base na 
estima^ao dos parametros? 

g. Para o modelo final estimado, verifique se ha a viola^ao do principio da proporcionalidade que deve ser 
obedecido em modelos de riscos proporcionais de Cox, ou seja, avalie se alguma das variaveis explicativas 
e dependente do tempo de monitoramento, ao nivel de significancia de 5%. 

h. Em media, em quanto se altera a taxa de risco de ocorrencia de compra de a^oes (hazard ratio ) quando se 
aumenta em 1 ano a idade media dos clientes, mantidas as demais condi^oes constantes? 

i. Em media, qual a diferen^a na taxa de risco de ocorrencia de compra de a^oes ( hazard ratio) entre homens 
e mulheres, mantidas as demais condi^oes constantes? 

j. Em media, em quanto se altera a taxa de risco de ocorrencia de compra de a^oes (hazard ratio) quando se 
aumenta em R$1,00 a renda media familiar dos clientes, mantidas as demais condi^oes constantes? 

k. Em media, qual a diferen^a na taxa de risco de ocorrencia de compra de a^oes (hazard ratio) entre clientes 
que se consideram moderados e aqueles que se consideram conservadores, mantidas as demais condi^oes 
constantes? E entre aqueles que se consideram arrojados e os que se consideram conservadores? 

l. Qual a probabilidade de um cliente da corretora comprar a^oes no Home Broker , sabendo-se que ele esta 
sendo monitorado ha 34 dias, tern 32 anos de idade, e do sexo masculino, possui renda mensal familiar de 
R$3.669,00 e se considera moderado em termos de perfil de investimento? 
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m. Elabore o grafico da curva de probabilidades de sobrevivencia a compra de a^oes para o modelo final. 

n. Elabore o mesmo grafico, porem estratificando os clientes do sexo feminino e do sexo masculino. 

o. Elabore o grafico da curva das taxas de risco (taxas de falha) de compra de a^oes para o modelo final. 

p. Elabore o mesmo grafico, porem estratificando os clientes do sexo feminino e do sexo masculino. 

q. Elabore o grafico da curva das taxas de falha acumuladas de Nelson-Aalen para o modelo final. 

r. Elabore o mesmo grafico, porem estratificando os clientes do sexo feminino e do sexo masculino. 

s. Por meio do teste Log-rank , e possivel afirmar que existem comportamentos discrepantes entre os clientes 
do sexo masculino e do sexo feminino em relagao ao risco de haver compra de a^oes, ao nivel de signifi¬ 
cance de 5%? 

t. Por meio do teste Log-rank , e possivel afirmar que, para as fun^oes de sobrevivencia ao evento dos perfis 
conservador, moderado e arrojado, pelo menos uma delas e estatisticamente diferente das demais, ao nivel 
de significance de 5%? Se sim, por meio do teste de Breslow (Wilcoxon), verifique qual par de fun^oes 
apresenta o comportamento mais discrepante. 

2. O Ministerio da Saude de determinado pais deseja ampliar a distribui^ao de um novo medicamento destinado 
a pacientes em estado terminal portadores de uma especifica doen^a e internados em Unidades deTerapia Intensiva 
(UTIs). Para tanto, precisa investigar a real eficiencia deste novo medicamento em termos de aumento da probabi- 
lidade de sobrevivencia dos pacientes que o utilizam e, desta forma, solicitou aos hospitais que monitorassem sema- 
nalmente os pacientes internados em UTI, e que informassem o uso ou nao deste novo medicamento, bem como 
o sexo do paciente. Ao termino da investiga^ao, foram monitorados 3.000 pacientes, sendo que alguns apresentaram 
obito (o evento de interesse, neste caso, e a morte) e outros apresentaram dados censurados, pelo fato de terem dei- 
xado a UTI. A descri^ao de cada variavel levantada, para cada paciente, esta descrita a seguir: 


Variavel 

Descri^ao 

id 

Variavel string que varia de 0001 a 3000 e que identifica o paciente. 

tempo 

Tempo de monitoramento de cada paciente em estado terminal (semanas). 

morte 

Variavel binaria que indica o evento (ocorrencia da morte = 1) ou a censura (saiu da UTI = 0). 

medicamento 

Variavel binaria que indica a aplica^ao do novo medicamento (1) ou a aplica^ao de 
medicamento considerado mais antigo (0). 

sexo 

Sexo do paciente (feminino = 0; masculino = 1). 


Os dados encontram-se nos arquivos UTI.sav e UTI.dta. 

Por meio da estima^ao de um modelo de riscos proporcionais de Cox, considerando as variaveis medicamen¬ 
to e sexo como possiveis preditoras, pede-se: 

a. Verifique se ha a viola^ao do principio da proporcionalidade que deve ser obedecido em modelos de ris¬ 
cos proporcionais de Cox para as duas variaveis preditoras. 

b. Elabore os graficos que apresentam a rela^ao entre os residuos escalonados de Schoenfeld das variaveis me¬ 
dicamento e sexo e os tempos de monitoramento. Faga uma breve discussao sobre a caracteristica dos grafi¬ 
cos obtidos. 

c. E possivel afirmar que pacientes que recebem medicamento novo e pacientes que sao tratados com medi¬ 
camento considerado mais antigo apresentam probabilidades de sobrevivencia estatisticamente diferentes, 
ao nivel de significance de 5%? 

d. Elabore o grafico das curvas de probabilidades de sobrevivencia para os pacientes tratados com medica¬ 
mento novo e para os pacientes tratados com medicamento considerado mais antigo. Fa^a uma breve dis¬ 
cussao sobre o grafico elaborado. 

e. Elabore o grafico das curvas das taxas de risco (taxas de falha) de ocorrencia de morte para os pacientes 
tratados com medicamento novo e para os pacientes tratados com medicamento considerado mais antigo. 
Fa^a uma breve discussao sobre o grafico elaborado. 

f. E possivel afirmar que pacientes do sexo feminino e do sexo masculino apresentam probabilidades de so¬ 
brevivencia estatisticamente diferentes, ao nivel de significance de 5%? 

g. Elabore o grafico das curvas de probabilidades de sobrevivencia para os pacientes do sexo feminino e para 
os pacientes do sexo masculino. Fa$a uma breve discussao sobre o grafico elaborado. 

Com base nas discussoes elaboradas, estime o modelo de riscos proporcionais de Cox por meio do procedimento 

Stepwise. Neste caso, pede-se: 

h. Quais as expressoes finais da taxa de risco de ocorrencia de morte e da probabilidade de sobrevivencia? 

i. Em media, qual a diferen^a na taxa de risco de ocorrencia de morte (hazard ratio) entre os pacientes trata¬ 
dos com medicamento novo e aqueles tratados com medicamento considerado mais antigo? 
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Modelos parametricos de regressao 
para dados de sobrevivencia 


A) Breve Apresenta^ao 

Ao contrario dos modelos de riscos proporcionais de Cox, em que sao estimadas as fungoes de sobrevivencia 
basal S 0 ( t ) e de risco basal h 0 ( t ) de forma nao parametrica, dado que estas fungoes apresentam distribuigoes 
desconhecidas, nos modelos parametricos de regressao para dados de sobrevivencia como, por exemplo, o expo- 
nencial, o Weibull ou o Gompertz, estas fung oes sao estimadas com base nas respectivas distribuigoes teoricas da 
fungao de sobrevivencia ao evento. 

Inicialmente, vamos novamente apresentar a expressao (17.6), definida na segao 17.2 deste capitulo para a taxa 
de risco (taxa de falha) de ocorrencia do evento de interesse: 

em que h 0 ( t ) representa o risco basal (baseline hazard) para um tempo de monitoramento t , e corresponde ao 
risco de ocorrencia do evento em t para determinada observagao i, quando todas as suas variaveis explicativas 
apresentarem valores iguais a zero, . (j = 1, 2, ..., k) representa todos os parametros estimados de cada variavel 
explicativa, X. representa as variaveis explicativas (metricas ou dummies) e o subscrito i representa cada observagao 
da amostra (i - 1,2,..., n, em que n e o tamanho da amostra). 

Dessa forma, podemos escrever as expressoes das taxas de risco (taxas de falha) de ocorrencia do evento de 
interesse para os modelos exponencial, Weibull e Gompertz, respectivamente, da seguinte maneira: 


• Modelo Exponencial 

ja que h 0 (t) =1 para esta estimagao. 


h. (;) = g(A- x « + A- x 2/ + - + A.x tt ) 


(17.23) 


• Modelo Weibull 

4(0 = (p).e (AXli+ftX2 ' ++AXfc) .(0 i ’“ 1 


(17.24) 


sendo h 0 ( t ) - p.(t) p 1 neste caso, em que p representa o parametro de forma da distribuigao Weibull. Note que 
o modelo exponencial e um caso particular do modelo Weibull quando p = 1. 


• Modelo Gompertz 

h, (t) = e^ l Xli+ ^ 2 ' X2 ' + ''' + ^ k ' Xki ) e ^ 


(17.25) 


sendo, neste caso, h 0 ( t ) = , em que y representa um parametro auxiliar a ser estimado na modelagem. Quando 

y for positivo, a taxa de risco de ocorrencia do evento aumentara com o tempo. Entretanto, quando for negativo, 
a taxa de risco diminuira com o tempo. Ja quando y for igual a zero, a taxa de risco de ocorrencia do evento sera 
igual a e (^ x i« + ^ 2 X 2 > + - + A-^fa) e> portanto, o modelo sera reduzido a um modelo exponencial. 

Feita esta breve apresentagao das fungoes das taxas de risco de ocorrencia do evento para os modelos expo¬ 
nencial, Weibull e Gompertz, apresentamos, por meio das Figuras 17.58 e 17.59, os graficos dos comportamentos 
destas fungoes com base na evolugao temporal. 

Na sequencia, estimaremos, em Stata, os modelos exponencial, Weibull e Gompertz, fazendo uso na mesma 
base de dados utilizada ao longo deste capitulo. 
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Para um aprofundamento do estudo dos modelos parametricos de regressao para dados de sobrevivencia, in¬ 
clusive em rela^ao a estima^ao dos parametros por meio das respectivas fun^oes de verossimilhan^a, recomen- 
damos a leitura de Lopez e Fidalgo (2000), Klein e Moeschberger (2003), Hosmer, Lemeshow e May (2008), 
Kieinbaum e Klein (2012) e Lee eWang (2013). 

B) Estima^ao de Modelos Parametricos de Sobrevivencia no Stata 

Com base no arquivo TempoFormaturaCox.dta, vamos, primeiramente, estimar um modelo de regres¬ 
sao exponencial. Para tanto, devemos digitar, inicialmente, o seguinte comando, que informa ao Stata que serao 
estimados modelos para dados de sobrevivencia, assim como fizemos quando da estima^ao do modelo de riscos 
proporcionais de Cox. 

stset tempomonitor, failure(status) id(estudante) 

Os modelos parametricos de regressao para dados de sobrevivencia sao estimados por meio do comando 
streg, que, quando aplicado diretamente, oferece as estimates das hazard ratios dos parametros. Analogamente 



Figure 17.58 Fun^oesdas taxas de risco/ift) para a distribuiqiao Weibull (distribui^ao exponencial como caso particular). 



Figure 17.59 Fungoes das taxas de risco h(t) para a distribui^ao Gompertz (distribui^ao exponencial como caso particular). 
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ao comando stcox, o termo nohr pode ser utilizado para que sejam obtidas as estimates dos parametros pro- 
priamente ditos dos modelos. 

Desta forma, a fim de que seja estimado o modelo exponencial, devemos digitar os seguintes comandos: 

streg bolsa idade, distribution(exponential) 
streg bolsa idade, distribution(exponential) nohr 

Os resultados obtidos encontram-se na Figura 17.60. 

Nao iremos discutir os outputs em profundidade, como fizemos ao longo deste capitulo, porem podemos veri- 
ficar que os parametros estimados pelo modelo exponencial nao diferem substaneialmente daqueles obtidos pelo 
modelo de Cox (Figura 17.17), mesmo que o parametro correspondente a variavel idade passe a nao ser mais es- 
tatisticamente diferente de zero, ao nivel de significancia de 5%. 

Para a estimaf ao do modelo de regressao Weibull, devemos digitar os seguintes comandos: 

streg bolsa idade, distribution(weibull) 
streg bolsa idade, distribution(weibull) nohr 

Os novos resultados sao apresentados na Figura 17.61. 

Neste caso, podemos verificar que os parametros e os respectivos erros-padrao estimados pelo modelo Weibull 
sao ainda mais semelhantes em rela^ao aqueles obtidos pelo modelo de Cox estimado na se^ao 17.3. 


. streg bolsa idade, distribution(exponential) 


failure __d 
analysis time _t 
id 


status 

tempomoni tor 
estudante 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 
Iteration 4 


log likelihood = -114.51049 
log likelihood = -103.33749 
log likelihood = -102.36523 
log likelihood - -102.36361 
log likelihood = -102.36361 


Exponential regression — log relative-hazard form 


No. of subjects = 
No. of failures = 
Time at risk = 


100 

78 

4765 


Log likelihood = -102.36361 


Number of obs = 100 


LR chi2(2) = 24.29 

Prob > chi2 = 0.0000 


_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] 

- + - 

bolsa | .3705387 .0961587 -3.83 0.000 .2228116 .6162108 

idade | 1.026766 .0161308 1.68 0.093 .9956324 1.058874 

. streg bolsa idade, distribution(exponential) nohr 

failure _d: status 
analysis time __t: tempomonitor 
id: estudante 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 
Iteration 4 


log likelihood 
log likelihood 
log likelihood 
log likelihood 
log likelihood 


-114.51049 

-103.33749 

-102.36523 

-102.36361 

-102.36361 


Exponential regression -- log relative-hazard form 


No. of subjects 

= 

100 


Number of obs = 

100 

No. of failures 

= 

78 




Time at risk 

= 

4765 


LR chi2(2) 

24.29 

Log likelihood 

= -102.36361 


Prob > chi2 = 

0.0000 

_t 1 

Coef. 

Std. Err. 

z 

P>|z| [95% Conf. 

Interval] 

bolsa | 

-.9927975 

.2595105 

-3.83 

0.000 -1.501429 

-.4841662 

idade | 

.0264145 

.0157103 

1.68 

0.093 -.0043772 

.0572061 

_cons | 

-4.66646 

.6211911 

-7.51 

0.000 -5.883972 

-3.448947 


Figura 17.60 Outputs do modelo exponencial no Stata. 
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streg bolsa idade, distribution(weibull) 


failure _d 
analysis time _t 
id 


status 

tempomonitor 
estudante 


Fitting constant-only model: 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 
Iteration 4 


log likelihood = -114.51049 
log likelihood = -92.457841 
log likelihood = -91.040054 
log likelihood = -91.036475 
log likelihood = -91.036475 


Fitting full model: 


Iteration 0 
Iteration 1 
Iteration 2 
Iteration 3 
Iteration 4 


log likelihood = -91.036475 
log likelihood = -70.073854 
log likelihood = -64.719464 
log likelihood = -64.705582 
log likelihood = -64.70558 


Weibull regression — log relative-hazard form 


No. of subjects = 
No. of failures = 
Time at risk = 

Log likelihood = 


100 

78 

4765 

-64.70558 


Number of obs = 100 


LR chi2(2) = 52.66 

Prob > chi2 = 0.0000 


_t 

1 

Haz. Ratio 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

bolsa 

1 

.2308998 

.0606398 

-5.58 

0.000 

.1379996 

.3863398 

idade 

1 

1.054514 

.0188363 

2.97 

0.003 

1.018234 

1.092086 

/ln_p 

1 

.9388968 

.0857307 

10.95 

0.000 

.7708678 

1.106926 

P 

1 

2.557159 

.2192269 



2.161641 

3.025044 

1/P 

1 

.391059 

.0335257 



.3305737 

.4626115 


streg bolsa idade, distribution(weibull) nohr 


failure _d 
analysis time _t 
id 


status 

tempomonitor 
estudante 


Fitting constant-only model: 


Iteration 

Iteration 

Iteration 

Iteration 

Iteration 


log likelihood = -114.51049 
log likelihood = -92.457841 
log likelihood = -91.040054 
log likelihood = -91.036475 
log likelihood = -91.036475 


Fitting full model: 
Iteration 0 


Iteration 1 
Iteration 2 
Iteration 3 
Iteration 4 


log likelihood = -91.036475 

log likelihood = -70.073854 
log likelihood = -64.719464 
log likelihood = -64.705582 
log likelihood = 


Weibull regression 

No. of subjects = 
No. of failures = 
Time at risk = 

Log likelihood = 


64.70558 

log relative-hazard form 

100 

78 

4765 

-64.70558 


Number of obs = 100 


LR chi2(2) = 52.66 

Prob > chi2 = 0.0000 


_t 

1 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

bolsa 

1 

-1.465771 

.2626238 

-5.58 

0.000 

-1.980505 

-.951038 

idade 

1 

.0530798 

.0178626 

2.97 

0.003 

.0180698 

.0880898 

_cons 

1 

-11.66312 

1.217118 

-9.58 

0.000 

-14.04863 

-9.277611 

/ln_p 

1 

.9388968 

.0857307 

10.95 

0.000 

.7708678 

1.106926 

P 

1 

2.557159 

.2192269 



2.161641 

3.025044 

1/P 

1 

.391059 

.0335257 



.3305737 

.4626115 


Figura 17.61 Outputs do modelo Weibull no Stata. 
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Por meio da Figura 17.61, podemos ainda verificar que e apresentada a estima^ao do parametro de forma da 
distribui^ao Weibull, com valor medio p = 2,55716. Como o intervalo de confian^a deste parametro nao contem 
o valor 1, podemos rejeitar a hipotese de que o modelo seja, neste caso, exponencial (p = 1). Desta forma, como 
o valor de p e estatisticamente maior do que 1, a taxa de risco de ocorrencia do evento em estudo aumenta com 
o tempo e, apos 100 meses de monitoramento, por exemplo, o risco de se formar e, em media, 36 vezes maior 
do que apos 10 meses de monitoramento (uma vez que (100 / iq) 2,55716 1 = 36,07). 

Na sequencia, apresentamos os resultados da estima^ao do modelo de regressao Gompertz (Figura 17.62), ob- 
tidos por meio da digita^ao dos seguintes comandos: 

streg bolsa idade, distribution(gompertz) 
streg bolsa idade, distribution(gompertz) nohr 

Conforme podemos verificar por meio dos outputs da Figura 17.62, os parametros e os respectivos erros- 
-padrao estimados pelo modelo Gompertz sao muito semelhantes aqueles estimados pelo modelo Weibull. Note 
que o Stata apresenta a estima^ao do parametro auxiliar y da distribui^ao Gompertz que, para o nosso exemplo, 
apresenta valor medio y = 0,04193. Como o intervalo de confian^a deste parametro nao contem o zero, pode¬ 
mos rejeitar a hipotese de que o modelo seja, neste caso, exponencial (y = 0). Logo, como o valor de y e esta¬ 
tisticamente maior do que zero, a taxa de risco de ocorrencia do evento aumentara com o tempo, conforme ja 
discutido quando da analise do modelo Weibull. 

Caso tenhamos a inten^ao de elaborar um grafico para comparar as curvas das taxas de risco de ocorrencia 
de formatura para os modelos exponencial, Weibull e Gompertz, precisamos, com base nas suas estima 9 oes, criar 
tres variaveis correspondentes a estas fun^oes (que chamaremos, respectivamente, de hazexp , hazweibull e hazgom- 
pertz), por meio da digita^ao dos seguintes comandos: 

gen hazexp = exp(-4.66646 - 0.9927975 * bolsa + 0.0264145 * idade) 
gen hazweibull = (2.557159) * (exp(-11.66312 - 1.465771 * bolsa 

+ 0.0530798 * idade)) * ((tempomonitor) A (2.557159 - 1)) 
gen hazgompertz = (exp(-6.855031 - 1.450279 * bolsa + 

0.0510545 * idade)) * (exp(0.0419325 * tempomonitor)) 

Desta forma, podemos elaborar o grafico desejado (Figura 17.63), por meio da digita^ao do seguinte comando: 

graph twoway mspline hazexp tempomonitor || 

mspline hazweibull tempomonitor || mspline hazgompertz tempomonitor 

Por meio do grafico da Figura 17.63, podemos verificar que, enquanto o modelo exponencial apresenta uma 
curva das taxas de risco de ocorrencia de formatura mais horizontal, os modelos Weibull e Gompertz sao os que 
apresentam as curvas com comportamentos mais parecidos, com taxas crescentes de risco de ocorrencia de for¬ 
matura a medida que o tempo aumenta. 

Por fim, imagine que tenhamos o interesse em elaborar um grafico com as curvas das taxas de risco de ocor¬ 
rencia de formatura (modelo de Cox, exponencial,Weibull e Gompertz) de um grupo homogeneo de estudantes, 
em que todos possuem bolsa de estudo e tern 24 anos de idade. 

Para tanto, precisamos, inicialmente, gerar uma nova variavel correspondente a fun^ao de risco basal do mo¬ 
delo de Cox ( hazO ) e, para tanto, devemos estimar novamente este modelo, digitando a seguinte sequencia de co¬ 
mandos: 

stcox bolsa idade, nohr 
predict hazO, basehc 

Na sequencia, com base nas estimates dos modelos, precisamos criar quatro novas variaveis, corresponden¬ 
tes as fun^oes das taxas de risco de ocorrencia de formatura para os modelos de Cox, exponencial, Weibull e 
Gompertz (que chamaremos, respectivamente, de hazcoxi, hazexp 1, hazweibulli e hazgompertz 1), por meio da 
digita^ao dos seguintes comandos: 




Figure 17.62 Outputs do modelo Gompertz no Stata. 
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Figura 17.63 Curvas das taxas de risco de ocorrencia de formatura. 


gen hazcoxl = haz0*exp(-1.317371 * 1 + .0665315 * 24) 

gen hazexpl = exp(-4.66646 - 0.9927975 * 1 + 0.0264145 * 24) 

gen hazweibulll = (2.557159) * (exp(-11.66312 - 1.465771 * 

1 + 0.0530798 * 24)) * ((tempomonitor) A (2.557159 - 1)) 

gen hazgompertzl = (exp(-6.855031 - 1.450279 * 1 + 0.0510545 * 24)) * 
(exp(0.0419325 * tempomonitor)) 

E, desta forma, podemos elaborar o grafico desejado (Figura 17.64), por meio da digita^ao do seguinte co- 
mando: 

graph twoway mspline hazcoxl tempomonitor || 
mspline hazexpl tempomonitor | | mspline hazweibulll tempomonitor | | 
mspline hazgompertzl tempomonitor 



Figura 17.64 Curvas das taxas de risco de ocorrencia de formatura para estudantes 
com 24 anos de idade e que possuem bolsa de estudo. 
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A fim de facilitar a visualiza^ao das diferen^as entre as curvas apresentadas na Figura 17.64 e, consequente- 
mente, permitir a compara^ao entre seus comportamentos, optou-se por elaborar o grafico considerando-se ape- 
nas tempos de monitoramento menores do que 60 meses. 

Com base na analise do grafico da Figura 17.64, e possivel verificar que, enquanto as taxas de risco de ocor- 
rencia do evento apresentam determinados comportamentos para os modelos exponencial,Weibull e Gompertz, 
ja que estas fungoes sao estimadas com base nas respectivas distributes teoricas das fun^oes de risco de ocorren- 
cia do evento, o mesmo nao pode ser dito em rela^ao ao modelo de Cox, uma vez que sua fun^ao de risco basal 
nao apresenta uma distribui<~ao conhecida e, portanto, e estimada de forma nao parametrica. 

Segundo Hamilton (2013), os modelos exponencial,Weibull ou Gompertz sao preferiveis ao modelo de ris- 
cos proporcionais de Cox quando, de fato, as fungoes de risco de ocorrencia do evento seguirem, respectivamen- 
te, distribui^oes do tipo exponencial,Weibull ou Gompertz. Caso contrario, estes modelos parametricos podem 
gerar resultados inadequados. Nestas situates, os modelos de Cox, em que nao ha qualquer suposi^ao sobre o 
formato da distribui^ao da fun^ao de risco, sao muito uteis e aplicaveis a uma grande variedade de situates. 



Modelos de Regressao com Multiplas Variaveis 
Dependentes: Correla^ao Candnica 


Tudo em nos e mortal ' menos os bens do espirito e da inteligencia . 

Ovidio 


Ao final deste capi'tulo, voce tera condigoes de: 

• Compreender a importancia de se estimarem modelos de regressao com multiplas variaveis dependentes. 

• Entender a relevancia da correlagao canonica como tecnica geral a partir da qua) outras derivam. 

• Compreender os conceitos pertinentes a variaveis canonicas, coeficientes canonicos normalizados e 
correlates canonicas. 

• Estudar a significance estatfstica dos parametros estimados dos coeficientes canonicos. 

• Avaliar a significance estatfstica, por meio de testes multivariados, das correlates canonicas. 

• Compreender o conceito de cargas canonicas e estudar a hierarquia de influences de cada variavel original 
em cada variavel canonica. 

• Estabelecer novos constructos de pesquisa, por meio da identificagao da variavel dependente que 
resultaria em urn modelo de regressao com maior R 2 e da variavel explicativa com a maior significance 
estatfstica para explicar o comportamento do conjunto de variaveis dependentes. 

• Saber calcular e interpretar as medidas de redundance em modelos de correlate canonica. 

• Estimar modelos de correlagao canonica em Microsoft Office Excel®, Stata Statistical Software® e IBM SPSS 
Statistics Software® e interpretar seus resultados. 


18 . 1 . INTRODU^AO 

Os modelos de correla^ao canonica, embora bastante uteis, sao pouco utilizados, principalmente pelo 
desconhecimento em rela^ao as suas possiveis aplicagoes. Entretanto, o correto entendimento de seus objetivos 
pode propiciar ao pesquisador a defmigao de constructos de pesquisa mais bem elaborados, uma vez que permite, 
frente a uma quantidade de possiveis variaveis dependentes, identificar aquela que seja mais fortemente explicada 
pelo conjunto de variaveis preditoras existentes no banco de dados. E por este motivo que tambem sao conhe- 
cidos por modelos de regressao com multiplas variaveis dependentes. Mais do que isso, ainda permitem 
que, dentre as variaveis preditoras, sejam identificadas aquelas estatisticamente significantes para explicar o com¬ 
portamento do conjunto de variaveis dependentes. 

Neste sentido, os modelos de correla^ao canonica permitem que seja considerada, simultaneamente, uma 
quantidade elevada de variaveis dependentes e explicativas, metricas ou nao metricas, com o intuito de oferecer 
suporte a intuigao do pesquisador em rela^ao a defini^ao das variaveis a serem inseridas em modelos com uma 
unica variavel dependente. Desta forma, e muito bem-vinda a sua aplicagao antes de qualquer proposigao de 
constructos em que nao sao conhecidas, a priori, as variaveis explicativas significativas e nem tampouco a melhor 
candidata a variavel dependente. 

Segundo Favero (2005), Mingoti (2005), Favero et al. (2009) e Hair et ah (2009), os modelos de correla^ao 
canonica foram inicialmente estudados por Hotelling em dois seminais artigos (1935 e 1936) e, embora ainda 
sejam pouco explorados, exemplos de aplicagao podem ser encontrados em macroeconomia, economia regional 
e urbana, finangas, marketing, recursos humanos e psicologia. 
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Imagine, por exemplo, que um pesquisador tenha interesse em estudar a rela^ao entre variaveis referentes a 
politicas de remunera^ao e beneficios a empregados e variaveis de desempenho contabil e financeiro de empresas. 
Enquanto isso, um segundo pesquisador, por outro lado, tern a inten^ao de estudar a rela^ao entre investimen- 
to privado e redu^ao da carga tributaria e as influencias geradas na balanga comercial e na taxa de crescimento 
do PIB de determinados paises. Ja um terceiro pesquisador quer avaliar a influencia de caracteristicas de imoveis 
e da localidade em que se encontram sobre o pre^o de venda e a quantidade de parcelas de um financiamento. 
Por fim, um quarto pesquisador quer compreender como se da a rela^ao entre os tipos de produtos consumidos 
em determinada rede de lojas e os estilos de personalidade dos consumidores. Note, em todos estes casos, que os 
constructos elaborados pelos pesquisadores requerem que as respectivas modelagens considerem a existencia de 
mais de uma variavel dependente do conjunto de variaveis preditoras e, desta forma, faz sentido o uso de mode- 
los de correla^ao canonica. 

Os modelos de correla^ao canonica, assim como os demais modelos estudados ao logo do livro, tambem de- 
vem ser definidos com base na teoria subjacente e na experiencia do pesquisador, de modo que seja possivei es- 
timar o modelo desejado, analisar os resultados obtidos por meio de testes estatisticos e elaborar previsoes. 

Neste capitulo, trataremos dos modelos de correla^ao canonica, com os seguintes objetivos: (1) introduzir os 
conceitos sobre os modelos de correla^ao canonica; (2) apresentar a estima^ao de modelos de correla^ao cano¬ 
nica; (3) interpretar os resultados obtidos e elaborar previsoes; e (4) apresentar a aplica^ao das modelagens em 
Excel, Stata e SPSS. Seguindo a logica dos capitulos anteriores, sera inicialmente elaborada a solu^ao em Excel 
de um exemplo concomitantemente a apresenta^ao dos conceitos e a sua resolu^ao algebrica. Apos a introdu- 
£ao dos conceitos serao apresentados os procedimentos para a elabora^ao das modelagens em Stata e em SPSS. 

18.2. O MODELO DE CORRELA^AO CANONICA 

Conforme propoem Alpert e Peterson (1972), Doutriaux e Crener (1982), Favero (2005) e Favero et al. 
(2009), a correla^ao canonica identifica a estrutura otima de cada vetor de variaveis que maximiza a rela^ao entre 
as variaveis dependentes e as variaveis explicativas, por meio do desenvolvimento de uma combina^ao linear para 
cada conjunto de variaveis, de modo a maximizar a correla^ao entre os dois conjuntos de variaveis. De acordo 
com Lawson e Brossart (2004), a linearidade e importante, uma vez que a analise e elaborada pelas matrizes de 
correla^ao (ou variancia-covariancia), que refletem e maximizam somente as relates lineares entre dois grupos 
de variaveis. 

Um modelo geral de correla^ao canonica pode ser escrito como: 

Y v ..Y p = f(X v ..X q ) (18.1) 

em que Y (s = l,...,p) representam as variaveis dependentes do modelo (metricas ou dummies) e X. (j = 1, q) 
representam as variaveis explicativas (tambem metricas ou dummies ). 

A partir da expressao (18.1), podemos definir, de acordo com Sharma (1996), duas novas variaveis, aqui cha- 
madas de u e v , que apresentam a seguinte especifica^ao: 

u u ~ a n^ii +^i2-^2i + p'Ypi (18.2) 

v u = + b n .X 2i +... + b lq .X qi (18.3) 

e que podem ser calculadas, com base na estima^ao dos parametros a n , a {2 , ..., a , b n , b n ,..., b^, para cada obser- 
va^ao i da amostra. Enquanto a variavel tq representa a combina^ao linear das variaveis dependentes, a variavel iq 
corresponde a combina^ao linear das variaveis explicativas. O subscrito i representa cada observa^ao da amostra 
(i = 1, 2, ..., n, em que n e o tamanho da amostra). Estas novas variaveis tq e v sao chamadas de variaveis ca- 
nonicas, e a correla^ao entre elas e conhecida por correla 9 ao canonica. Devem existir parametros a n , a u , ..., 
a i P e ^i 2 5 m °do que a correla^ao canonica entre u x e tq seja a maxima possivei, o que permitira ao 

pesquisador estudar as rela^oes entre os comportamentos das variaveis consideradas dependentes e aquelas con- 
sideradas explicativas de forma coerente e apropriada. 

Mantendo a logica proposta, imaginemos agora que existam duas outras variaveis u 2 e tq, que possam ser 
calculadas, para cada observa^ao i da amostra, com base na estima^ao de novos parametros a 2l , <q 2 ,..., a 2p , b 2V b 2V 
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..., b 2 ^ sendo tambem a correlate entre u 2 e v 2 a maxima possivel, porem respeitando-se o fato de que as cor¬ 
relates entre tq e u 2 e entre iq e v 2 sejam iguais a zero. Desta forma, podemos escrever as expressoes de u 2 e v 2 
conforme segue: 


U 2i ~ d 2\^\i a 22^2i U 2p’Ypi 


(18.4) 


V 2i - hl- X l . +b 22- X 2i+-- + b 2 i - X V 


(18.5) 


Repetindo-se esta logica, podem existir duas variaveis u m e t; , que tambem podem ser calculadas, para cada 
observa^ao i da amostra, com base na estimate dos parametros a ml , a m2 , ..., a mp , b mV b m2 , b m ^ sendo tambem a 
correlate entre u m e v a maxima possivel. Neste caso, as correlates entre e qualquer outra variavel u (iq, 
tq, ..., w m l ) e as correlates entre t^ e qualquer outra variavel v (iq, iq,..., tqj tambem devem ser iguais a zero 
(dai a origem do termo correlate canonica) . Podemos escrever as expressoes de u m e v m da seguinte forma: 



■ + a mp- Y pi 

(18.6) 

•x 2i +. 

~+K- x « 

(18.7) 


Ressalta-se que o valor maximo de m corresponde ao minimo dos valores de p e q. Ou seja, se, por exemplo, 
estivermos estudando um modelo com duas variaveis dependentes (p = 2) e tres variaveis explicativas ( q — 3), 
serao criadas apenas as variaveis tq, tq, u 2 e iq (m = 2). 

Segundo Mingoti (2005), o objetivo, portanto, dos modelos de correlate canonica e estimar parametros a kV 
a kV •••> v b kV h kV K ( k = 2 > •••> w )> de modo q ue: 

corr(u 1 , tq) = max 


e que as matrizes de correlates sejam: 


corr(u m ,v m ) = max 


(18.8) 


a>rr(tq,tq) corr(u x ,u 2 ) . 

■ corr(u v u m ) ' 


f 1 0 . 

. 0 " 

corr(u 19 u 2 ) corr(u 2 ,u 2 ) . 

• con(u 2 ,u m ) 

— 

0 1 . 

. 0 

v corr(u v u m ) corr(u 2 ,u m ) .. 

- COn ( U m’ U m) j 


v 0 0 ., 

■K 


r corr(v 1 ,v 1 ) corr(v v v 2 ) . 

. corr(v v v m ) ' 


f 1 0 . 

. 0 ' 

corr(v 1 ,v 2 ) corr(v 2 ,v 2 ) . 

■ c orr{v 2 ,v m ) 

- 

0 1 . 

. 0 

^ corr(v 1,0 corr(v 2i v m ) ., 

■■ corr ( v m ’ v J J 


^ 0 0 .. 

1, 


Conforme sera apresentado na se^ao 18.2.1, por meio de um exemplo, os parametros a kV a kV ..., d , b kl , b k2 ,..., 
b^ (k = 1 , 2, ..., m) de um modelo de correlate canonica serao inicialmente estimados por meio da ferramenta 
Solver do Excel, com base nas expressoes (18.8) e (18.9). 

Alem deste metodo, os parametros tambem podem ser estimados por meio de algebra matricial, com base em 
equates que consideram as matrizes de variancias e covariancias das variaveis dependentes e explicativas. A no- 
menclatura destas matrizes, que sera utilizada na sequencia, obedece ao que segue: 


var(Y) = lyy var(X) = 

cov(Y,X) = X yx cov(X,Y) = X xy 


Enquanto a matriz de dimensao pxp, representa as relates existentes entre as variaveis dependentes, a 
matriz e s xx , de dimensao q x q, representa as relates existentes entre as variaveis explicativas. As covariancias 



1008 Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata 


entre os pares de variaveis Y $ (s = 1, ..., p) e X (j = 1, q) encontram-se na matriz s yx , de dimensao 
pxq. 

Segundo Sharma (1996),Timm (2002), Anderson (2003), Mingoti (2005) e Favero et al. (2009), as equates 
matriciais cujas solutes matematicas tornam possivel a estima^ao dos parametros a kV a k2 , ..., a kp , b kV b k2 , ..., 
(k— 1,2,..., m) podem ser escritas como: 

(Z^Z xy -A.Z w ).^=0 (18.10) 

(X XY X^X yx -A.Z xx )4=0 (18.11) 

em que os valores de A, conhecidos por autovalores, correspondem ao quadrado das correlates canonicas entre 
as variaveis canonicas calculadas, e podem ser obtidos por meio das seguintes expressoes: 


|-11^1 = 0 (18.12) 

A.zj = 0 (18.13) 

Logo, a estima^ao dos parametros a kV a k2 ,..., a kp) b kV b kr ..., b kq (k = 1,2,m) do modelo de correla^ao cano- 
nica tambem pode ser elaborada por meio da solu^ao das expressoes (18.10) e (18.11), com base nos autovalores 
calculados nas expressoes (18.12) e (18.13). 

Alem da maximiza^ao das correlacoes entre as variaveis canonicas que representam as composites lineares 
das variaveis originais dependentes e explicativas, a tecnica de correla^ao canonica tambem busca, por objetivo 
final, maximizar o percentual de variancia em um determinado par de variaveis canonicas que e explicado pelas 
variaveis originais. Neste sentido, podemos definir uma medida de redundancia (MR), que pode ser calculada 
para cada correla^ao canonica e obtida por meio da seguinte expressao: 


MR u k ,v t =_ Var ( y ’ M *).- C fe 


(18.14) 


em que: 

MR Uk Vk representa a medida de redundancia que corresponde ao percentual de variancia em uma variavel ca¬ 
nonica u k que e explicado por uma variavel canonica v k , dada a respectiva correla^ao canonica q, em que k — 1, 

2,..., m. O termo var (Y,u k ) representa a variancia media nas variaveis Y que e explicada pela variavel canonica 
podendo ser expressa por: 


Y° n l 


var (y,w fe ) = —— 
V 


(18.15) 


em que corr sk e chamada de carga canonica e representa a correla^ao simples entre determinada variavel depen- 
dente original Y (s = 1, e determinada variavel canonica u k (k = 1, 2, ..., m). Desta forma, podemos rees- 
crever a expressao (18.14) da seguinte forma: 


MR 


u k> v k 



V J 


(18.16) 


Como c k 


representa a variancia compartilhada entre u k e v k , podemos interpretar a medida de redundancia 


como sendo igual ao produto da variancia media pela variancia compartilhada. Dessa forma, a variancia total 
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explicada em um vetor de variaveis dependentes por um vetor de variaveis explicativas e chamada de medida 
de redundancia total, que pode ser expressa por: 

m 

MR-T Y ,x=l<MR Uk ' Vk (18-17) 

fe=l 

em que: 

MRTy x representa a medida de redundancia total das variaveis Y. 

A medida de redundancia total representa uma estimativa do R 2 que seria resultante de uma regressao, se fos¬ 
se elaborado um modelo com cada variavel dependente em fun^ao das variaveis explicativas. E, portanto, uma 
estimativa da media de cada R 2 encontrado, podendo auxiliar o pesquisador na elabora^ao de um constructo de 
pesquisa que leve em considera^ao um vetor de variaveis a serem boas candidatas a explicativas de determinada 
variavel candidata a dependente. Logo, podemos reescrever a expressao (18.17) da seguinte forma: 

p 

MRT yx = L-MR = (18.18) 

fe =l P 

em que: 

Ry representa o coeficiente de ajuste R 2 que seria obtido quando da estima^ao de um modelo de regressao 
de determinada variavel dependente Y (s = 1, ...,p) em fun^ao de todas as variaveis X consideradas. 

Feita esta pequena introdu^ao sobre os modelos de correlagao canonica, partiremos, entao, para a estima^ao 
propriamente dita dos seus parametros, por meio da apresenta^ao de um exemplo elaborado inicialmente em 
Excel. 

18.2.1. Estima^ao dos parametros do modelo de correla^ao canonica 

Seguindo a logica proposta no livro, apresentaremos, neste momento, os conceitos pertinentes a estima^ao dos 
parametros de um modelo de correla^o canonica por meio de um exemplo similar ao desenvolvido nos capitu- 
los anteriores. Entretanto, agora teremos duas variaveis dependentes. 

Imagine que o nosso mesmo professor astuto e perspicaz, que ja explorou consideravelmente os efeitos de 
determinadas variaveis explicativas sobre o tempo de deslocamento de um grupo de alunos ate a escola, sobre a 
probabilidade de se chegar atrasado as aulas, sobre a frequencia semanal e mensal de atrasos, sobre o desempenho 
escolar ao longo do tempo e para diferentes escolas e sobre o risco de haver ou nao formatura apos certo tempo 
de monitoramento, tenha agora o interesse em investigar se a quantidade anual de faltas a escola e a quantidade 
semanal de horas de estudo influenciam conjuntamente as notas finais de calculo e de marketing de cada um dos 
alunos investigados. Neste caso, portanto, existem duas variaveis dependentes que podem sofrer influencia conjun- 
ta das variaveis aqui definidas como explicativas. 

Sendo assim, o professor elaborou uma pesquisa com 30 alunos da escola onde leciona, levantando dados so¬ 
bre as notas finais obtidas nas disciplinas de calculo e de marketing, bem como sobre a quantidade de faltas ob- 
tidas por cada um ao longo do ano. Alem disso, tambem questionou cada um destes mesmos alunos sobre a sua 
estimativa em rela^ao a quantidade semanal de horas de estudo. O banco de dados elaborado, considerado uma 
cross-section , encontra-se naTabela 18.1, assim como no arquivo NotasCalculoMarketing.xls. 

Desta forma, com base na expressao (18.1), temos, neste exemplo, a inten^ao de estimar o seguinte modelo 
de correla^ao canonica: 

calculo , marketing = f ( faltas , horas) 

ou, mais especificamente, desejamos estimar os parametros das seguintes variaveis canonicas: 

— a n .calculo i + a l2 .marketing { 

v u = b n .faltas . +b 12 . horas f 
u 2i — a 21 .calculo i + a 22 .marketing; 
v 2 i = b 21 . faltasi + b 22 .horas { 


ja que, neste nosso exemplo, m = 2. 
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Tabefa 18.1 Exempfo: notas de calculo e marketing, quantidade anual de faltas e boras semanais de estudo. 



Nota final de calculo 

Nota final 
de marketing 

Quantidade anual 
de faltas 

Quantidade semanal 
de horas de estudo 

Estudante 

<n> 

(YJ 

< x „.) 


Gabriela 

5,8 

4,0 

53 

14 

Patricia 

3,1 

2,0 

67 

2 

Gustavo 

3,1 

4,0 

49 

11 

Leticia 

10,0 

8,0 

6 

19 

Luiz Ovidio 

3,4 

2,0 

31 

7 

Leonor 

10,0 

10,0 

4 

19 

Dalila 

5,0 

2,0 

28 

8 

Antonio 

5,4 

2,0 

20 

4 

Julia 

5,9 

4,0 

67 

2 

Mariana 

6,1 

4,0 

67 

1 

Roberto 

3,5 

2,0 

67 

2 

Renata 

3,5 

10,0 

8 

3 

Guilherme 

4,5 

10,0 

7 

8 

Rodrigo 

10,0 

4,0 

13 

9 

Giulia 

6,2 

10,0 

22 

5 

Felipe 

8,7 

10,0 

24 

8 

Karina 

10,0 

6,0 

8 

7 

Pietro 

10,0 

6,0 

13 

8 

Cecilia 

10,0 

10,0 

3 

23 

Gisele 

10,0 

10,0 

3 

22 

Elaine 

3,1 

2,0 

67 

2 

Kamal 

10,0 

10,0 

4 

19 

Rodolfo 

8,7 

10,0 

24 

8 

Pilar 

10,0 

6,0 

8 

7 

Vivian 

6,1 

4,0 

67 

1 

Danielle 

3,5 

2,0 

67 

2 

Juliana 

5,0 

2,0 

28 

8 

Adriano 

10,0 

8,0 

6 

19 

Adelino 

10,0 

10,0 

3 

22 

Carolina 

3,1 

2,0 

67 

2 


Como as variaveis apresentam metricas e unidades diferentes, iremos, inicialmente, padronizar cada uma delas, 
por meio do procedimento Zscores. ATabela 18.2 apresenta as novas variaveis padronizadas. 

Estimaremos, agora, os parametros a u , a 12 , b n , b 12 , a 2V a 22 , b 2V b 2V respeitando as expressoes (18.8) e (18.9). Para 
tanto, a fim de facilitar a visualiza^ao do que representam as variaveis canonicas u tv, vamos elaborar dois graficos 
que relacionam, respectivamente, as variaveis dependentes e as variaveis explicativas. Estes graficos sao apresenta- 
dos, respectivamente, nas Figuras 18.1 e 18.2. 

Dessa forma, os parametros a e a u podem ser representados por um angulo 6 n , de modo que a primeira va- 
riavel canonica tq possa ser expressa em fun^ao deste angulo, conforme mostra a Figura 18.3. 

Logo, a primeira variavel canonica « , representada pela reta inclinada da Figura 18.3, pode ser escrita como: 


em que: 


u u = cos d n .zcakulo i + send n .zmarketing i 
cos 9 n = a n tstnO n = a 12 



Modelosde Regressao com Multiplas Variaveis Dependentes: Correlagao Canonica 1011 


Tabela 18.2 Variaveis padronizadas - procedimento Zscores. 


Estudante 

zcalculo 

zmarketing 

zfaltas 

zhoras 

Gabriela 

-0,3472 

-0,5488 

0,8894 

0,6906 

Patricia 

-1,2943 

-1,1369 

1,4316 

-0,9892 

Gustavo 

-1,2943 

-0,5488 

0,7345 

0,2706 

Leticia 

1,1259 

0,6272 

-0,9307 

1,3905 

Luiz Ovidio 

-1,1890 

-1,1369 

0,0374 

-0,2893 

Leonor 

1,1259 

1,2153 

-1,0082 

1,3905 

Dalila 

-0,6278 

-1,1369 

-0,0787 

-0,1493 

Antonio 

-0,4875 

-1,1369 

-0,3886 

-0,7093 

Julia 

-0,3122 

-0,5488 

1,4316 

-0,9892 

Mariana 

-0,2420 

-0,5488 

1,4316 

-1,1292 

Roberto 

-1,1540 

-1,1369 

1,4316 

-0,9892 

Renata 

-1,1540 

1,2153 

-0,8533 

-0,8493 

Guilherme 

-0,8032 

1,2153 

-0,8920 

-0,1493 

Rodrigo 

1,1259 

-0,5488 

-0,6596 

-0,0093 

Giulia 

-0,2069 

1,2153 

-0,3111 

-0,5693 

Felipe 

0,6699 

1,2153 

-0,2336 

-0,1493 

Karina 

1,1259 

0,0392 

-0,8533 

-0,2893 

Pietro 

1,1259 

0,0392 

-0,6596 

-0,1493 

Cecilia 

1,1259 

1,2153 

-1,0469 

1,9505 

Gisele 

1,1259 

1,2153 

-1,0469 

1,8105 

Elaine 

-1,2943 

-1,1369 

1,4316 

-0,9892 

Kamal 

1,1259 

1,2153 

-1,0082 

1,3905 

Rodolfo 

0,6699 

1,2153 

-0,2336 

-0,1493 

Pilar 

1,1259 

0,0392 

-0,8533 

-0,2893 

Vivian 

-0,2420 

-0,5488 

1,4316 

-1,1292 

Danielle 

-1,1540 

-1,1369 

1,4316 

-0,9892 

Juliana 

-0,6278 

-1,1369 

-0,0787 

-0,1493 

Adriano 

1,1259 

0,6272 

-0,9307 

1,3905 

Adelino 

1,1259 

1,2153 

-1,0469 

1,8105 

Carolina 

-1,2943 

-1,1369 

1,4316 

-0,9892 

Media 

0,000 

0,000 

0,000 

0,000 

Desvio-padrao 

1,000 

1,000 

1,000 

1,000 


Da mesma maneira, os parametros b n e b X2 podem ser representados por um angulo 0 2V de modo que a pri- 
meira variavel canonica v possa ser expressa em fun^ao deste novo angulo, conforme mostra a Figura 18,4. 

Do mesmo modo, podemos escrever a expressao da primeira variavel canonica v da seguinte forma: 


em que: 


v u = cosd 2l .zfaltas i + sen0 21 . zhoras . 
cos0 21 = b n esen# 21 = b 12 


Se arbitrariamente definissemos que 6 n = 45° e 0 2X = 135°, poderiamos facilmente determinar u x e v^ja que, 
nesta situa^ao hipotetica, teriamos que: 

u lt = 0,7071 .zcalculo i + 0,7071 .zmarketing i 


v Xi — —0,7071 .zfaltas i + 0,7071 .zhoras 
cujos valores sao apresentados na Tabela 18.3. 
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Figura 18.1 Variaveis dependentes padronizadas. 



Figura 18.2 Variaveis explicativas padronizadas. 


Nesta situa^ao particular, a correlagao entre as variaveis canonicas iq e tq e igual a 0,8266. 

Portanto, podemos propor a seguinte pergunta: Quais os valores de 0 n e 0 21 , ou seja, quais os valores 
de a n , a 12 , b n e b n , que fazem com que a correla^ao entre u x e seja a maxima possivel? 

Iremos resolver este problema com o uso da ferramenta Solver do Excel e utilizando os dados do nosso 
exemplo. Para tanto, devemos abrir o arquivo NotasCalculoMarketingCorrela9aoCan6nica.xls, que servira 
de auxilio para o calculo dos parametros. 

Neste arquivo, alem das variaveis dependentes ( calculo e marketing) e das variaveis explicativas (faltas e horns), sao 
tambem apresentadas as respectivas variaveis zcalculo, zmarketing, zfaltas e zhoras , padronizadas por meio do proce- 
dimento Zscores. Alem disso, sao tambem apresentadas as variaveis canonicas u x zv v cujos calculos dependem dos 
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Figura 18.3 Defini<;ao da variavel canonica u v 



valores de 9 n e 0 2V A Figura 18.5 apresenta os dados presentes neste arquivo do Excel quando, arbitrariamente, 
e n = 45° e 0 21 = 135°. 

Como podemos verificar, quando 9 n = 45° e 9 2X = 135°, os valores de cada observa^ao para as variaveis ca- 
nonicas u x e tq sao exatamente os mesmos dos apresentados naTabela 18.3, sendo a correla^ao entre elas igual a 
0,8266, conforme ja discutimos. Entretanto, deve haver uma combina^ao otima de valores de 9 n e 9 2V de modo 
que a correla^ao entre u x e v x seja a maxima possivel. 

Seguindo a logica proposta por Belfiore e Favero (2012), vamos entao abrir a ferramenta Solver do Excel. 
A fun^ao-objetivo esta na celula P7, que e a nossa celula de destino e que devera ser maximizada. Alem disso, os 
parametros 9 n e 9 2X , cujos valores estao, respectivamente, nas celulas P4 e P5, sao as celulas variaveis. A janela do 
Solver ficara como mostra a Figura 18.6. 
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Tabela 18.3 Variaveis canonicas u } e v } para 0 n = 45° e 0 21 =135°. 


Estudante 


v i 

Gabriela 

-0,6336 

-0,1406 i 

Patricia 

-1,7191 

-1,7118 

Gustavo 

-1,3033 

-0,3280 

Leticia 

1,2397 

1,6414 

Luiz Ovidio 

-1,6447 

-0,2310 

Leonor 

1,6555 

1,6961 

Dalila 

-1,2478 

-0,0499 

Antonio 

-1,1486 

-0,2268 

Julia 

-0,6088 

-1,7118 

Mariana 

-0,5592 

-1,8108 

Roberto 

-1,6199 

-1,7118 

Renata 

0,0434 

0,0028 

Guilherme 

0,2914 

0,5251 

Rodrigo 

0,4080 

0,4598 

Giulia 

0,7130 

-0,1826 

Felipe 

1,3330 

0,0596 

Karina 

0,8239 

0,3988 

Pietro 

0,8239 

0,3608 

Cecilia 

1,6555 

2,1195 

Gisele 

1,6555 

2,0205 

Elaine 

-1,7191 

-1,7118 

Kamal 

1,6555 

1,6961 

Rodolfo 

1,3330 

0,0596 

Pilar 

0,8239 

0,3988 

Vivian 

-0,5592 

-1,8108 

Danielle 

-1,6199 

-1,7118 

Juliana 

-1,2478 

-0,0499 

Adriano 

1,2397 

1,6414 

Adelino 

1,6555 

2,0205 

Carolina 

-1,7191 

-1,7118 


Ao clicarmos em Resolver e em OK, obteremos a solu^ao otima do problema de programa^ao linear. A 
Figura 18.7 apresenta os resultados obtidos. 

Logo, o valor maximo da correla^ao entre u x e tq e 0,8327, com 6 n = 40,90° e 0 21 = 149,82°. Desta forma, 
as variaveis canonicas u x e tq podem, respectivamente, ser escritas como: 

u u = cos(40,90 °).zcdlculo i +sen(40,90 °).zmarketing i 
u u = 0,7559. zcalculo i +0,6547 ,zmarketing i 


e 

v u = cos(149,82 °).zfaltos { +sen(149,82 °).zhoras i 
v u =-0,8645 .zfaltas i +0,5027 .zhoras i 

De forma analoga, e com base nas expressoes (18.4) e (18.5), iremos estimar os parametros do segundo par de 
variaveis canonicas u 2 e v 2 , que podem ser escritas, respectivamente, como: 
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A B C D_E___F_ _G__H _I J _K_ _ N_ O P_ R 


1 

E$tudante 

C«culo{Y,) 

Marketing (Y*) 

Faitas (Xf) 

Horas(X 2 ) 

ZcAculo 

Zmarketing 

Zfaltas 

Zhoras 

“1 

Vl 


1 


2 

Gabriela 

5,8 

4,0 

53 

14 

-0,3472 

-0,5488 

0,8894 

0,6906 

-0,6336 

-0,1406 

8i 

45,00 

gratis 

3 

Patricia 

3,1 

2,0 

67 

2 

-1,2943 

-1,1369 

1,4316 

-0,9892 

-1,7191 

-1,7118 

ez 

135,00 

gratis 

4 

Gustavo 

3,1 

4,0 

49 

11 

-1,2943 

-0,5488 

0,7345 

0,2706 

-1,3033 

-0,3280 

radBi 

0,7854 

rad ia nos 

5 

Leticia 

10,0 

8,0 

6 

19 

1,1259 

0,6272 

-0,9307 

1,3905 

1,2397 

1,6414 

rad 02 

2,3562 

radianos 

6 

Luiz Ovfdio 

3,4 

2,0 

31 

7 

-1,1890 

-1,1369 

0,0374 

-0,2893 

-1,6447 

-0,2310 




7 

Leonor 

10,0 

10,0 

4 

19 

1,1259 

1,2153 

-1,0082 

1,3905 

1,6555 

1,6961 

corr(a, v) 

0,8266 


8 

Dalila 

5,0 

2,0 

28 

8 

-0,6278 

-1,1369 

-0,0787 

-0,1493 

-1,2478 

-0,0499 




9 

Antdnio 

5,4 

2,0 

20 

4 

-0,4875 

-1,1369 

-0,3886 

-0,7093 

-1,1486 

-0,2268 




10 

Julia 

5,9 

4,0 

67 

2 

-0,3122 

-0,5488 

1,4316 

-0,9892 

-0,6088 

-1,7118 




11 

Mariana 

6,1 

4,0 

67 

1 

-0,2420 

-0,5488 

1,4316 

-1,1292 

-0,5592 

-1,8108 




12 1 Roberto 

3,5 

2,0 

67 

2 

-1,1540 

-1,1369 

1,4316 

-0,9892 

-1,6199 

-1,7118 




13 Renata 

3,5 

10,0 

8 

3 

-1,1540 

1,2153 j 

-0,8533 

-0,8493 

0,0434 

0,0028 




14 

Guilherme 

4,5 

10,0 

7 

8 

-0,8032 

1,2153 

-0,8920 

-0,1493 

0,2914 

0,5251 




15 

Rodrigo 

10,0 

4,0 

13 

9 

1^1259 

-0,5488 

-0,6596 

-0,0093 

0,4080 

0,4598 




16 

Giulia 

6,2 

10,0 

22 

5 

-0,2069 

1,2153 

-0,3111 

-0,5693 

0,7130 

-0,1826 




17 

Felipe 

8J 

10,0 

24 

8 

0,6699 

1,2153 

-0,2336 

-0,1493 

1,3330 

0 X 0596 




is] Karina 

10,0 

6,0 

8 

7 

1,1259 

6,0392 

^0,8533 

-0,2893 

0,8239 

0,3988 




19 Pietro 

10,0 

6,0 

13 

8 

1j1259 

0,0392 

-0,6596 

-0,1493 

0,8239 

0,3608 




20 

Cecilia 

10,0 

10,0 

3 

23 

1,1259 

1,2153 

-1,0469 

1,9505 

1,6555 

2,1195 




21 

Gisele 

10,0 

10,0 

3 

22 

1,1259 

1,2153 

-1,0469 

1,8105 

1,6555 

2,0205 




22 'Elaine 

3,1 

2,0 

67 

2 

-1,2943 

-1,1369 

1,4316 

-0,9892 

-1,7191 

-1,7118 




23 Kamal 

10,0 

10,0 

4 

19 

1,1259 

1,2153 

-1,0082 

1,3905 

' 1,6555 

1,6961 




24 

Rodolfo 

8,7 

10,0 

24 

8 

0>699 

1,2153 

-0,2336 

-0,1493 

1,3330 

0,0596 




25 

Pilar 

10£ 

. 6 0 

8 

7 

1,1259 

0,0392 

-0,8533 

-0,2893 

0,8239 

0,3988 




26 jVivian 

6,1 

4,0 

67 

1 

-0,2420 

-0,5488 

1,4316 

-1,1292 

-0,5592 

-1,8108 




27 Danielle 

3,5 

2,0 

67 

2 

-1J540 

-1,1369 

74316 

-0,9892 

-1,6199 

-1,7118 




28 1 Juliana 

5,0 

2,0 

28 

8 

-0,6278 

-1,1369 

-0,0787 

-0,1493 

-1,2478 

-0,0499 




29 Adriano 

10^0 ^ 

. 8,0 _ 

6 

- 19 ~ 

1,1259 

0,6272 

-0,9307 

1,3905 

1,2397 

1,6414 ’ 




30 jAdelino 

10,0 

10,0 

3 

22 

1,1259 

1,2153 

-1,0469 

1,8105 

1,6555 

2,0205 




31 

Carolina 


2,0 

67 

2 

-1,2943 

-1,1369 

1,4316" 

-0,9892 

-1,7191 

-1,7118 





Figura 18.5 Dados do arquivo NotasCalculoMarketingCorrela^aoCandnica.xIs. 


em que: 


e 


u 2i — cosd 12 .zcalculo i + sen0 12 .zmarketing i 


cos0 12 = a 21 esen0 12 = a 22 


v 2 { — cos6 22 .zfaltas i + sen0 22 .zhoras { 

em que: 

COS0 22 = b 2l esen@ 22 = b 22 

Portanto, deve haver uma combina^ao otima de valores de 0 U e 0 22 , de modo que a correla^ao entre u 2 e v 2 
seja a maxima possivel e, conforme discutimos, as correlates entre u e we entre v x e v 2 sejam iguais a zero. 

Vamos novamente abrir a ferramenta Solver do Excel. Para que o procedimento correto seja aplicado, a solu- 
$ao anterior deve estar mantida. A fun^ao-objetivo, neste caso, esta na celula Q7, que e a nossa celula de destino 
e que devera ser maximizada. Alem disso, os parametros 0 U e d 22 , cujos valores estao, respectivamente, nas celulas 
Q4 e Q5, sao as celulas variaveis. Alem disso, devemos impor duas restri^oes, correspondentes, respectivamente, 
as correlates entre tq e u 2 (celula P8) e entre tq e v 2 (celula P9), que deverao ser iguais a zero. A janela do Solver 
ficara como mostra a Figura 18.8. 

Ao clicarmos em Resolver e em OK, obteremos a nova solu^ao otima do problema de programa^ao linear. 
A Figura 18.9 apresenta os resultados obtidos. 

Logo, o valor maximo da correla^ao entre u 2 e v 2 e 0,1179, com 9 U = -45,91° e 0 22 — 47,73°. Desta forma, as 
variaveis canonicas u 2 e v 2 podem, respectivamente, ser escritas como: 

u 2i = cos(-45,91 °).zcalculo i + sen(-45,91°). zmarketing i 

u 2i = 0,6958 .zcalculo i —0,7183 .zmarketing i 
e 
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Parametros do Solver 




Oeftrcr Objetivo: 

Para: (8) Max. O^orde: 

Alfcerando Cefulas Variaveis: 


|P$4:$P$5 


Sujeito &s Restrigoes: 


Q Tomar Variaveis Irrestrifcas Nao Negativas 
Sdedonar ton Metodo da Solugao: 


GRG Nao Linear 


A 


0 


Mrionar 


Alterar 


Exdirr 


RedefircrTudo 


Carregar/Safvar 


QpgSes 


Metodo de Solugao 

Seledone o mecanismo GRG Nao Linear para Problemas do Solver agaves e nao tneares. Seledone o 
mecaresmo IP implex para Problemas do Solver (rteares, Seledone o mecanismo Evolutionary para 
problemas do Sofver nao suaves, 


Ajuda 


Resolver 


gediar 


Figura 18.6 Solver - Maximizagao da correlagao entre u e v r 


y 2j . = cos(47,73 °).zfaltas i + sen(47,73°). zhoras . 
y 2 . = 0,6727 .zfaltas { +0,7400 .zhoras i 

Tambem podemos verificar, com base nas restrigoes impostas, que as correlates entre w e w 2 e entre v 1 e y 2 
sao de fato iguais a zero, o que caracteriza o modelo de correlagao canonica. 

Caso m fosse maior do que 2, este procedimento deveria ser continuado. Entretanto, para o caso especifico do 
nosso exemplo, nao e possivel identificar outros pares de variaveis canonicas. 

Conforme discutimos no inicio da segao 18.2, os parametros das variaveis canonicas tambem podem ser 
estimados por meio de algebra matricial. Para os dados do nosso exemplo, as matrizes de variancias e covariancias 
das variaveis dependentes e explicativas sao: 


I 


YY 


1,0000 0,6371 
0,6371 1,0000 
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A ] B I C \ D 

E 

P 

G 

H 

1 J J K 

in o r p i r 

11 

Estudante 

Calculo (Y|) 

Marketing (Y 2 ) 

Faltas (X,) 

Horas (X 2 ) 

Zcalculo 

Zmarlceting 

Zfaltas 

Zhoras 

«i 

v i 

i 

j 2 

Gabriela 

5,8 

4,0 

53 

14 

-0,3472 

-0,5488 

0,8894 

0,6906 

-0,6218 

-0,4217 

01 | 40,90 gratis 

02 1 149,82 gratis 

rad0i f 0,7138 radianos 

rad 02 | 2,6149 radianos 

| 3 

Patricia 

3,1 

2,0 

67 

2 

-1,2943 

-1,1369 

1,4316 

-0,9892 

-1,7226 

-1,7348 

i 4 

Gustavo 

3,1 

4,0 

49 

11 

-1,2943 

-0,5488 

0,7345 

0,2706 

-1,3376 

-0,4989 

| 5 

Leticia 

10,0 

8,0 

6 

19 

1,1259 

0,6272 

-0,9307 

1,3905 

1,2617 

1,5036 

i 6 

Luiz Ovfdio 

3.4 

2,0 

31 

7 

-1,1890 

-1,1369 

0,0374 

-0,2893 

-1,6431 

-0,1778 


| 7 

Leonor 

10,0 

10,0 

4 

19 

1,1259 

1,2153 

-1,0082 

1,3905 

1,6467 

1,5705 

corr(«, v) ( 0,8327 j 

!« 
L 3 

Daiiia 

5,0 

2,0 

28 

8 

-0,6278 

-1,1369 

-0,0787 

-0,1493 

-1,2189 

-0,0070 


o 

1 

5,4 

2,0 

20 

4 

-0,4875 

-1,1369 

-0,3886 

-0,7093 

-1,1129 

-0,0207 

Li® 

hj 

12 

Julia 

5,9 

4,0 

67 

2 

-0,3122 

-0,5488 

1,4316 

-0,9892 

-0,5953 

-1,7348 

Mariana 

6,1 

4,0 

67 

1 

-0,2420 

-0,5488 

1,4316 

-1,1292 

-0,5423 

-1,8052 

Roberto 

3,5 

2,0 

67 

2 

-1,1540 

-1,1369 

1,4316 

-0,9892 

-1,6166 

-1,7348 

13 

Renata 

3,5 

10,0 

8 

3 

-1,1540 

1,2153 

-0,8533 

-0,8493 

-0,0765 

0,3107 

J4 

15 

Guilherme 

4,5 

10,0 

7 

8 

-0,8032 

1,2153 

-0,8920 

-0,1493 

0,1886 

0,6960 

Rodrigo 

10,0 

4,0 

13 

9 

1,1259 

-0,5488 

-0,6596 

-0,0093 

0,4917 

0,5655 

16 

Giulia 

6,2 

10,0 

22 

5 

-0,2069 

1,2153 

-0,3111 

-0,5693 

0,6393 

-0,0172 

JL 

Felipe 

8,7 

10,0 

24 

8 

0,6699 

1,2153 

-0,2336 

-0,1493 

1,3021 

0,1269 

\m 

Karina 

10,0 

6,0 

8 

7 

1,1259 

0,0392 

-6,8533 

-0,2893 

0,8767 

0,5922 


Pietro 

10,0 

6,0 

13 

8 

1,1259 

0,0392 

-0,6596 

-0,1493 

0,8767 

0,4952 

j 201 

Cecilia 

10,0 

10,0 

3 

23 

1,1259 

1,2153 

-1,0469 

1,9505 

1,6467 

1,8855 

21 

22 

Gisele 

10,0 

10,0 

3 

22 

1,1259 

1,2153 

-1,0469 

1,8105 

1,6467 

1,8151 

Elaine 

3,1 

2,0 

67 

2 

-1,2943 

-1,1369 

1,4316 

-0,9892 

-1,7226 

-1,7348 

JO 

Kama! 

10,0 

10,0 

4 

19 

1*1259 

1,2153 

-1,0082 

1,3905 

1,6467 

1,5705 

24 

Rodolfo 

8,7 

10,0 

24 

8 

0,6699 

1,2153 

-0,2336 

-0,1493 

1,3021 

0,1269 

25 

i: 

m 

Pilar 

10,0 

6,0 

8 

7 

1,1259 

0,0392 

-0,8533 

-0,2893 

0,8767 

0,5922 

Vivian 

6,1 

4,0 

67 

1 

-0,2420 

-0,5488 

1,4316 

-1,1292 

-0,5423 

-1,8052 

Danielle 

3,5 

2.0 

67 

2 

-1,1540 

-1,1369 

1,4316 

-0,9892 

-1,6166 

-1,7348 

Ui 

Juliana 

5,0 

2,0 

28 

8 

-0,6278 

-1,1369 

-0,0787 

-0,1493 

-1,2189 

-0,0070 

1» 

Adriano 

iojl 

8,0 _ 

6 

19 

1,1259 

0,6272 

J5>9307 

1,3905 

1,2617 

1,5036 

[30 

lAdelino 

10,0 

10,0 

3 

22 

1,1259 

1,2153 

-1,0469 

1,8105 

1,6467 

1,8151 

Hi 

Carolina 

.3,1. 

2.0 

67 

2 

-1,2943 

-1,1369 

1,4316 

-0,9892 

-1,7226 

-1,7348 


Figura 18.7 Obtengao dos parametros Q u e 0 ;l quando da maximizagao da correlagao entre u, e pelo Solver. 


E 


XX 


1,0000 -0,6949 
-0,6949 1,0000 


Z 


YX 


-0,7198 0,6893 
-0,7255 0,6192 


I 


XY 


-0,7198 -0,7255 
0,6893 0,6192 


Com o intuito de obtermos as solufoes matematicas das equacoes matriciais representadas pelas expressoes 
(18.10) e (18.11), apresentamos tambem as seguintes matrizes inversas: 


YY 


1,6832 -1,0724 
-1,0724 1,6832 


1,9338 1,3438 
xx_ 1,3438 1,9338 


(^YY^YX^XX^XY 



0,3834 

0,3200 


0,3579 

0,3239 


(^XX^XY^YY^YX 


)‘ 


0,4584 -0,4041 
-0,2585 0,2489 


Desta forma, temos que: 
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Parai <§) Max, O 
Affcerando Cefulas Vanaveas: 


O Valor de: 


Sujeito as Restngoes: 


$p$8=o 

A 

$>$9=0 




□ Tornar Variavas Irrestrifcas M|o Negatives 

Sdedonar um Metodo de Sohi$ao: GRG Nao linear vj q^oss 

Metodo de Sohj^io 

Redone o meesnlsm© <HG Nao linear para Problemas do Solver suaves e nao Eneares. Redone © 
mecarrismo IP £mp!ex para Problemas do Solver Eneares, Sdedone o mecsnismo Evolutionary para 
problemas do Solver nao Slaves. 



4 — 0,6934 
4=0,0139 













Modelos de Regressao com Multiplas Variaveis Dependentes: Correlapao Canonica 1019 


A 

8 

c 

0 

E 

F 

G 

H 

I 

L 

M 

N O 

p 

<2 R 

1 f Estudante 

C6lculo(V,) 

Marketing <Y 2 J 

Fates |X,) 

I 

1 

ZcStculo 

Zmariceting 

Zfaltas 

Zhoras 

«S 



i 

2 

2 Gabriela 

5,8 

4,0 

53 

14 

•0,3472 

-0,5488 

0,8894 

0,6906 

0,1526 

1,1093 

01 

40,90 

-45,91 gratis 

3 Patricia 

3,1 

2,0 

67 

2 

-1,2943 

-1,1369 

1,4316 

-0,9892 

-0,0840 

0,2310 

02 

149,82 

47,73 graus 

4 Gustavo 

3,1 

4,0 

49 

11 

-1,2943 

-0,5488 

0,7345 

0,2706 

-0,5063 

0,6943 

radOi 

0,7138 

*0,8013 radianos 

5 Leticia 

10,0 

8,0 

6 

19 

1,1259 

0,6272 

-0,9307 

1,3905 

0,3329 

0,4029 

rad02 

2,6149 

0,8330 radianos 

6 ILuizOvidio 

3,4 

2,0 

31 

7 

-1,1890 

-1,1369 

0,0374 

-0,2893 

-0,0107 

-0,1889 




7 [Leonor 

10,0 

10,0 

4 

19 

1,1259 

1,2153 

-1,0082 

1,3905 

-0,0895 

0,3508 

corr(«, v) 

0,8327 

0,1179 

8 Daiiia 

5,0 

2,0 

28 

8 

-0,6278 

-1,1369 

-0,0787 

-0,1493 

0,3797 

-0,1635 

eorr{/ii, u 2 ) 

0,0000 

9 Antdnio 

5,4 

2,0 

20 

4 

-0,4875 

-1,1369 

-0,3886 

-0,7093 

0,4773 

-0,7862 

corr(vj, v 2 ) 

0,0000 

io Julia 

5,9 

4,0 

67 

2 

-0,3122 

-0,5488 

1,4316 

-0,9892 

0,1770 

0,2310 




ii Mariana 

6,1 

4,0 

67 

1 

-0,2420 

-0,5488 

1,4316 

-1,1292 

0,2258 

0,1274 




12 Roberto 

3,5 

2,0 

67 

2 

-1,1540 

-1,1369 

1,4316 

-0,9892 

0,0137 

0,2310 




13 Renata 

3,5 

10,0 

8 

3 

-1,1540 

1,2153 

-0,8533 

-0,8493 

-1,6758 

-1,2024 




14 Guilherme 

4,5 

10,0 

7 

8 

-0,8032 

1,2153 

-0,8920 

-0,1493 

-1,4317 

-0,7105 




15 1 Rodrigo 

10,0 

4,0 

13 

9 

1,1259 

-0,5488 

-0,6596 

-0,0093 

1 t 1776 

-0,4506 




is Giulia 

6,2 

10,0 

22 

5 

-0,2069 

1,2153 

-0,3111 

-0,5693 

-1,0169 

-0,6305 




it j Felipe 

8,7 

10,0 

24 

8 

0,6699 

1,2153 

-0,2336 

-0*1493 

-0,4068 

*0,2677 




; is Karina 

10,0 

6,0 

8 

7 

1,1259 

0,0392 

-0,8533 

-0,2893 

0,7552 

-0,7880 




19 Pietro 

10,0 

6,0 „ 

13 

8 

1,1259 

0,0392 

-0,6598 

-0,1493 

0,7552 

-0,5542 




20 Cecilia _ 

10,0 

10,0 

3 

23 

1,1259 

1,2153 

-1,0469 

1,9505 

-0,0895 

0,7391 




21 Gisele_ 

10,0 

10,0 

3 

22 

1,1259 

1,2153 

-1,0489 

1,8105 

-0,0895 

0,6355 




22 Elaine _ 

3,1 

2.0 

67 

2 

-1,2943 

-1,1369 

1,4316 

-0,9892 

-0,0840 

0,2310 




23 Kama! 

10,0 

10,0 

4 

19 

1,1259 

1,2153 

-1,0082 

1,3905 

-0,0895 

0,3508 




24 Rodolfo 

8,7 

10,0 

24 

8 

0,6699 

1,2153 

-0,2336 

-0,1493 

-0,4068 

-0,2677 




25 Pilar 

10,0 

6,0 

8 

7 

1,1259 

0,0392 

-0,8533 

-0,2893 

0,7552 

-0,7880 




1 26 Vivian 

6,1 

4,0 

67 

1 

-0,2420 

-0,5488 

1,4316 

-1,1292 

0,2258 

0,1274 




27 Danielle 

! 3,5 

2,0 

67 

2 

-1,1540 

i -1,1369 

1,4316 

-0,9892 

! 0*0137 

0,2310 




28 Juliana 

5,6 

2,0 

i 28 

8 

-0,6278 

-1,1369 

-0,0787 

-0,1493 

0,3797 

-0,1635 




29 Adriano_ 

10,0 

8,0 . 

[e 

19 

1,1259 

0,6272 

-0,9307 

1,3905 

! . 0,3329 . 

0,4029 




i 30 j Adeline 

io,6 

10,0 

3 

22 

1,1259 

1,2153 

-1,0469 

1,8105 

-0,0895 

0,6355 




31 ! Carolina 

I 3.1 

2,0 

67 

2 

-1,2943 

1-1,1369 

1,4316 

-0,9892 

i -0,0840 

0,2310 





Figura 18.9 Obtengao dos parametros 6 U e 0 22 quando da maximizagao da correlagao entre u x e v y pelo Solver. 


Logo, as correlates canonicas entre u x e v x e entre u 2 e v 2 podem ser calculadas por meio da aplicagao das 
raizes quadradas dos autovalores A 1 e X v respectivamente. Portanto, a correlagao canonica entre u x e e igual a 
VO, 6934 =0,8327 e a correla^ao canonica entre « 2 e n e igual a -y/0,0139 = 0,1179 , que sao exatamente os va- 
lores estimados por meio do Solver do Excel (Figuras 18.7 e 18.9). 

Portanto, temos agora condicdes de calcular, com base no primeiro autovalor correspondente a primeira cor- 
relaqao canonica, os valores dos parametros a n , a 12 , b n , b n do primeiro par de variaveis canonicas, por meio da 
solucao das equacoes matriciais representadas pelas expressoes (18.10) e (18.11). Desta forma, temos que: 


0,3834-0,6934 0,3579 

0,3200 0,3239-0,6934 

0,4584-0,6934 -0,4041 

-0,2585 0,2489-0,6934 


\( \ 

Cl* A 


J 

\( 


V* 12 ) 


V 12 J 


V°7 


V° 7 


Assumindo que a n + a X2 — 1 e que b\ x + b X2 = 1, chegamos a: 


a n = 0,7559 a X2 = 0,6547 

b n =-0,8645 b 12 = 0,5027 


cujos valores sao exatamente iguais aos estimados por meio da ferramenta Solver do Excel. Nao elaboraremos, 
por meio de algebra matricial, os calculos dos parametros das variaveis canonicas u 2 e v 2 , ja que o procedimento e 
analogo. 

De acordo com Sharma (1996), Mingoti (2005) e Favero et al. (2009), as variancias das combinagoes lineares 
resultantes das estimates dos parametros das duas variaveis canonicas podem ser escritas, respectivamente, da 
seguinte forma: 


( 0,7559 0,6547 



0,7559 

0,6547 


= 1,6306 


(- 0,8645 0,5027 


{ -0,8645 
0,5027 


= 1,6041 
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Para que a variancia da combina^ao linear seja igual a 1, os valores de a n e a 12 devem ser divididos por -^1,6306 
Analogamente, os valores de b e b devem ser divididos por ^1,6041 . Logo, temos que: 


^ = _OJ559 = = 0j 592o 


71,6306 

0,6547 

71,6306 


= 0,5127 


b„ =- r— 645 =-0,6826 


■y/1,6041 


fc,=-& = 0,3969 


■71,6041 


Estes novos parametros calculados, chamados de coeficientes canonicos normalizados, sao utilizados pa¬ 
ra formar as variaveis canonicas a partir das variaveis originais padronizadas. Softwares como o Stata geram em 
seus outputs estes parametros, conforme apresentaremos na se^ao 18.3. Logo, com base nos coeficientes canonicos 
normalizados e a partir das variaveis originais padronizadas, podemos reescrever as expressoes do primeiro par de 
variaveis canonicas da seguinte forma: 


u u =0,5920 .zcdlculo i + 0,5127 .zmarketing i 
v u = —0,6826 .zfaltas i + 0,3969 .zhoras { 

Mesmo nao tendo sido estimados, de forma algebrica matricial, os parametros a 2V a 2V b 2V b 22 do segundo par 
de variaveis canonicas, podemos reescrever suas expressoes, tambem fazendo uso dos coeficientes canonicos nor¬ 
malizados: 


u 2i = 1,1545 .zcalculo i —\\ 9 \%.zmarketing i 
v 2i = 1,2115 .zfaltas i +1,3327 .zhoras { 

Alem dos coeficientes canonicos normalizados, podemos tambem calcular as correlates entre cada variavel 
canonica e as variaveis originais que as compoem. Estas correlates, tambem chamadas de cargas canonicas, 
sao, para os dados do nosso exemplo: 


corr (calculo,u^) = 0,9186 
con (cdlculo,u 2 ) = 0,3952 
corr ( faltas, v x ) = —0,9584 
corr ( faltas , v 2 ) = 0,2854 


corr {marketing, ufj = 0,8899 
corr ( marketing , u 2 ) = —0,4562 
corr (boras = 0,8712 
corr (boras,v 2 ) = 0 , 4909 


Logo, conforme discutimos, a modelagem de correla^ao canonica tambem busca maximizar o percentual 
de variancia em determinado par de variaveis canonicas que e explicado pelas variaveis originais. Desta forma, 
para os dados do nosso exemplo, e com base na expressao (18.15), podemos definir, para a primeira dimensao 
canonica, que: 

= ( 09186 )^( 08899 ^ = 

e, com base na expressao (18.14), podemos calcular a seguinte medida de redundancia: 


MR 





:? = 0,8178.(0,8327) 2 = 0,5671 
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que indica, para a primeira fun^ao canonica, que 56,71% da variancia das variaveis calculo e marketing e 
explicado pelas variaveis faltas e horas. Como este nao e um valor baixo, podemos concluir que a primeira 
correla^ao canonica apresenta um razoavel significado pratico. A significance estatistica desta correla^ao canoni¬ 
ca, entretanto, sera discutida na se^ao 18.2.2. 

Analogamente, tambem podemos definir, para a segunda dimensao canonica, que: 

-——r (0,3952) 2 + (-0,4562) 2 

var(Y | u 2 ) = —-= 0,1822 


e, portanto, temos que: 

MR U2V2 =[var(Y,M 2 )].c 2 =0,1822. (0,1179) 2 =0,0025 

que indica, para a segunda fun^ao canonica, que apenas 0,25% da variancia das variaveis dependentes 
calculo e marketing e explicado pelas variaveis faltas e horas. Este e o primeiro indicio de que a segunda di¬ 
mensao canonica talvez nao seja estatisticamente significante, conforme discutiremos na se^ao 18.2.2. 

Com base na expressao (18.18), o percentual total de variancia explicada de calculo e marketing por 
faltas e horas , chamado de medida de redundancia total, e igual a 56,96% (0,5671 + 0,0025 = 0,5696), 
em que grande parte desta variancia e gerada pela primeira variavel canonica. 

Nao apresentaremos os resultados neste momento, porem caso estimassemos um modelo de regressao com a 
variavel calculo em fun^ao das variaveis faltas e horas e outro modelo de regressao com a variavel marketing tambem 
em fun^ao de faltas e horas , o R 2 medio das duas estimates seria exatamente igual a 56,96%. 

A partir dos resultados obtidos por meio da estima^ao do nosso modelo de correla^ao canonica, podemos 
propor cinco importantes perguntas: 

As variaveis dependentes calculo e marketing sao significantes para a forma^ao das variaveis ca¬ 
nonicas iq e « 2 ? 

As variaveis explicativas faltas e horas sao significantes para a forma^ao das variaveis canonicas 

‘'l eV 2 ? 

As duas correlates canonicas sao significantes? 

Qual variavel dependente possui a maior influencia para a formafao da variavel canonica u 9 ou 
seja, qual variavel dependente resultaria em um modelo de regressao com maior R 2 , se as variaveis 
faltas e horas fossem incluidas como explicativas? 

Qual variavel explicativa possui a maior influencia para a forma^ao da variavel canonica v 9 ou 
seja, qual variavel explicativa (faltas ou horas) apresentaria maior significancia estatistica em mode- 
los de regressao elaborados com a variavel calculo ou com a variavel marketing como dependente? 

Antes de respondermos a estas importantes questoes, precisamos estudar a significancia estatistica de todos os 
parametros estimados e das duas correlates canonicas calculadas para o nosso exemplo. 

18 . 2 . 2 . Significancia dos parametros e das correlates canonicas 

Vamos novamente escrever as expressoes dos dois pares de variaveis canonicas a partir das variaveis originais 
padronizadas: 

u u = 0,5920 .zcalculo i + 0,5127 .zmarketing i 
v Xi — -0,6826 .zfaltas. + 0,3969.zhoras { 
u 2i = 1,1545 .zcalculo i - 1,1918. zmarketing i 
v 2i = 1,2115 .zfaltas ( +1,3327 .zhoras { 

Os parametros destas expressoes (coeficientes canonicos normalizados) podem ser interpretados da mesma 
forma que os coeficientes de um modelo de regressao multipla, assumindo-se que a variavel canonica seja a va¬ 
riavel dependente, ou seja, oferecem a contribui^ao de cada variavel original padronizada sobre a respectiva va¬ 
riavel canonica, ceteris paribus. 
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Estimados os parametros a n , a l2 , b iv b l2 , a 2V a 22 , b 2V b 22 para os dados do nosso exemplo, podemos calcular os 
respectivos erros-padrao (standard error , ou s.e.) com base no que foi apresentado e discutido na se^ao 12.2.3 do 
Capitulo 12. Nao apresentaremos aqui os calculos destes erros-padrao, por nao ser escopo deste capitulo, porem 
seus valores sao: 

s.e. (a n ) = s.e. (a 12 ) = 0,1660 
s.e. (b n ) = s.e. (bj = 0,1779 
s.e. (a 21 ) = s.e. (a 22 ) = 2,1033 
s.e. ( b 2l ) = s.e. (b 22 ) = 2,2543 

Conforme tambem discutido na se^ao 12.2.3 do Capitulo 12, a fim de testarmos se determinado parametro 
e estatisticamente diferente de zero, devemos recorrer a estatistica t, cuja expressao e: 

parametro 

tpar^ro = -7-7-7 (18.19) 

s.e. ( parametro) 

A estatistica t e importante para fornecer ao pesquisador a significancia estatistica de cada parametro a ser con- 
siderado no modelo, e as hipoteses do teste correspondente (teste t), para cada parametro estimado, sao: 

H q : parametro = 0 
H a : parametro ^ 0 

Para os dados do nosso exemplo, podemos agora calcular o valor da estatistica t de cada parametro estimado, 
conforme mostra aTabela 18.4. 


Tabela 18.4 Calculo das estatisticas t dos parametros. 


1- par de variaveis canonicas 

, 0,5920 

t n — -= 3,5663 

11 0,1660 

t. =°’ 5127 = 3,0886 

12 0,1660 

-0,6826 

t. = -= -3,8370 

611 0,1779 

h =°’ 3969 = 2,2310 

12 0,1779 

2 a par de variaveis canonicas 

= 1,1545 _ 4g9 

21 2,1033 

-1,1918 A 

t =—--= -0,5666 

22 2,1033 

= 1,2115 = 3?4 

h ' 2,2543 

1,3327 

t h =— -= 0,5912 

22 2,2543 


Para 28 graus de liberdade (n - 2 — 28), temos, por meio da Tabela B do apendice do livro, que o t = 2,048 
para o nivel de significancia de 5% (probabilidade na cauda superior de 0,025 para a distribui^ao bicaudal). Desta 
forma, podemos rejeitar a hipotese nula de que cada um dos parametros do primeiro par de variaveis canonicas 
seja estatisticamente igual a zero a este nivel de significancia, ja que t cal > t c = t 2g 25% = 2,048 para os parametros 

V a i2’ b u e Kr 

O mesmo, todavia, nao pode ser dito em rela^ao aos parametros do segundo par de variaveis canonicas, ja que 
t ca i < K ~ *28 25 % ~ 2>048 para os parametros a 2V a 22? b 21 e b 22 . Este fato ja comprova que a segunda dimensao cano- 
nica nao sera estatisticamente significante ao nivel de significancia de 5%, isto e, que a segunda correla^ao canonica 
sera estatisticamente igual a zero. 

Desta forma, podemos responder as duas primeiras perguntas propostas ao final da se$ao 18.2.1.Voltemos a elas: 

As variaveis dependentes calculo e marketing sao significantes para a forma 9 ao das variaveis ca¬ 
nonicas u t e w 2 ? 

Nao. As variaveis calculo e marketing sao estatisticamente significantes, ao nivel de significancia de 5%, apenas 
para a forma^ao da variavel canonica u y 

As variaveis explicativas faltas e horas sao significantes para a forma 9 ao das variaveis canonicas 
v i e v r 

Nao. As variaveis faltas e horas sao estatisticamente significantes, ao nivel de significancia de 5%, apenas para a 
forma^ao da variavel canonica v v 
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Alem da interpreta^ao dos parametros estimados para as variaveis canonicas, precisamos discutir a significan- 
cia estatistica das correlates canonicas. Os tres principais testes estatisticos multivariados que avaliam, por meio 
da estatistica F, a significance das dimensoes canonicas, sao o Wilks’ lambda, o Pillai’s trace e o Lawley-Hotelling 
trace, cujas hipoteses nulas afirmam que os dois veto res de variaveis nao sao linearmente relacionados, ou seja, que 
as correlates canonicas sao estatisticamente iguais a zero a um determinado nivel de significance. 

A estatistica do teste de Wilks 5 lambda, o mais utilizado entre os tres testes apresentados neste capitulo, e 
calculada por meio da seguinte expressao: 

t-i (18.20) 

em que c k (k — 1,2, m) representa a correla^ao canonica entre um par de variaveis canonicas e m e o numero 
de dimensoes (no nosso exemplo, m — 2). A significancia estatistica do teste de Wilks’ lambda pode ser verificada 
por meio do teste F, cuja estatistica apresenta a seguinte expressao: 


F = 


1-A" 


df 2 


A" 

V J 


df i 


(18.21) 


em que df x = p.q e df 2 = 2.(n - p - q), m, conforme discutimos, e o numero de correlates canonicas, p e o nu¬ 
mero de variaveis dependentes e q e o numero de variaveis explicativas. 

Para o nosso exemplo, a estatistica de Wilks’ lambda que avalia simultaneamente a significancia das duas di¬ 
mensoes canonicas e calculada da seguinte forma: 


A = [l - (0,8327) 2 ].[l - (0,1179) 2 ] = 0,3023 


de onde vem que: 


r 

l-0,3023 2 

_ , 

\ 

.(52) 

/ 


rT 

0,3023 2 . 

(4) 


V J 


10,6436 


Por meio daTabela A do apendice do livro, temos que of = 2,55 (F critico para dj x — 4, df 2 = 52 e nivel de sig¬ 
nificancia de 5%). Desta forma, como o F calculado F^ = 10,6436 > F = 2,55, podemos rejeitar a hipotese nula 
de que as duas correlates canonicas sejam estatisticamente iguais a zero ao nivel de significancia de 5%. Em outras 
palavras, podemos rejeitar a hipotese nula de que os dois vetores de variaveis nao sejam linearmente relacionados, ao 
nivel de significancia de 5%, sendo pelo menos a correla^ao canonica da primeira dimensao canonica estatisticamente 
diferente de zero. 

Precisamos, portanto, testar a significancia estatistica apenas da segunda correla^ao canonica. A estatistica de 
Wilks’ lambda, neste caso, e calculada da seguinte maneira: 


de onde vem que: 


A =[l-(0,1179) 2 ] = 0,9861 


F = (1 ~ 0’ 9861) • (27) _ q 2,806 
(0,9861).(1) 


Note, para este caso, que m — 1, visto que estamos testando apenas a significancia estatistica da segunda cor- 
rela^ao canonica. Alem disso, temos que dj x ~ 1 e df 2 — (n - p - 1) = 27. Por meio daTabela A do apendice do 
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livro, temos agora que o F = 4,21 (F critico para df x — 1, df 2 — 27 e nivel de significance de 5%). Desta forma, 
como o F calculado F cd = 0,3806 < F = 4,21, nao podemos rejeitar a hipotese nula de que a segunda correla^ao 
canonica seja estatisticamente igual a zero ao nivel de significance de 5%. Este fato ja era esperado, dado que os 
valores-P das variaveis que compoem as variaveis canonicas u 2 e v 2 mostraram-se maiores do que 5%. 

A estatistica referente ao teste de Pillai’s trace, calculada apenas para se testar a significance das duas dimen- 
soes canonicas simultaneamente, e definida por meio da seguinte expressao: 

n = X(c,) 2 (18.22) 

k=l 


cuja significance estatistica tambem pode ser verificada por meio do teste F, que apresenta agora a seguinte ex¬ 
pressao: 


r _ (JMz 

em que dj x — p.q e df 2 = 2.{n - p - 1). 

Logo, para o presente exemplo, temos que: 


(18.23) 


II = (0.8327) 2 +(0,1179) 2 =0,7073 

de onde vem que: 

P- < WP>3 >-< i »> =7.3868 
(2 —0,7073).(4) 

Analogamente ao discutido para o teste de Wilks’ lambda, temos, por meio daTabela A do apendice do livro, 
que of = 2,54 (F critico para df x = 4, df 2 = 54 e nivel de significance de 5%). Desta forma, como o F calculado 
F cal = 7,3868 > F = 2,54, podemos rejeitar a hipotese nula de que as duas correlates canonicas sejam estatis¬ 
ticamente iguais a zero ao nivel de significance de 5%. Ou seja, podemos tambem concluir, pelo teste de Pillai s 
trace, que pelo menos a correla^ao canonica da primeira dimensao canonica e estatisticamente diferente de zero. 

Por fim, o teste de Lawley-Hotelling trace, muito similar ao teste de Pillai s trace, tern sua estatistica cal¬ 
culada por meio da seguinte expressao: 

m / \2 

LH = Ir-rfrr| (18.24) 

k=\[} ( C k ) j 

cuja significance estatistica tambem pode ser verificada por meio do teste F, que apresenta a seguinte expressao: 

f = (18.25) 

0 m ) J f i 


em que df x = p.q e df 2 ~ 2.{n - p - q- 1). 
Para o nosso exemplo, temos agora que: 


UI _ (0,8327) 2 (0,1179) 2 

[l-(0,8327) 2 j [l-(0,1179) 2 ~ 


2,2759 


de onde vem que: 


P _ (2,2759).(50) 
(2)-(4) 


14,2245 


Assim como discutido para os testes de Wilks’ lambda e de Pillai s trace, temos, por meio daTabela A do apen¬ 
dice do livro, que o F = 2,56 (F critico para df x = 4, df 2 = 50 e nivel de significance de 5%). Desta forma, como 
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o F calculado F z = 14,2245 > F = 2,56, tambem podemos rejeitar, por meio do teste de Lawley-Hotelling tra¬ 
ce, a hipotese nula de que as duas correlates canonicas sejam estatisticamente iguais a zero, ao nivel de signifi¬ 
cancia de 5%. 

E bastante comum que estes tres estatisticos (Wilks’ lambda, Pillai s trace e Lawley-Hotelling trace) gerem 
conclusoes similares em rela^ao a significancia estatistica do conjunto de correlates canonicas e, com base nos 
resultados apresentados, podemos responder a terceira pergunta proposta ao final da se^ao 18.2.1: 

As duas correlates canonicas sao significantes? 

Nao. Podemos concluir que apenas a primeira correlate canonica e estatisticamente significante, ao nivel de 
significancia de 5%, ou seja, neste exemplo apenas uma unica dimensao e necessaria para se descrever a relate 
existente entre as variaveis dependentes calculo e marketing e as variaveis explicativas faltas e horas. 

A fim de que as duas ultimas perguntas propostas na se^ao 18.2.1 possam ser respondidas, precisamos 
discutir a hierarquia de influencias das variaveis originais em cada uma das variaveis canonicas da primeira 
dimensao. 

18.2.3. Hierarquia de influencias das variaveis originais nas variaveis canonicas 

Apos a analise da significancia das dimensoes canonicas, podemos estudar a hierarquia de influencias de cada 
variavel original em cada variavel canonica da primeira dimensao (unica estatisticamente significante). Este estu- 
do talvez represente a maior contribute pratica dos modelos de correlate canonica. 

Para tanto, elaboramos aTabela 18.5, que apresenta os coeficientes canonicos normalizados e as cargas cano¬ 
nicas (correlates) calculadas para os dados do nosso exemplo. 


Tabela 18.5 Coeficientes canonicos normalizados e cargas canonicas para a primeira dimensao. 



Variaveis 

Canonicas 

Variaveis Dependentes 

Variaveis Explicativas 

zcdlculo 

zmarketing 

zfaltas 

zhoras 

Coeficientes 

Canonicos 

Normalizados 

u i 

0,5920 

0,5127 



v i 



-0,6826 

0,3969 

Cargas Canonicas 


0,9186 

0,8899 






-0,9584 

0,8712 


Os maiores valores de cada linha desta tabela (em modulo) estao destacados em negrito. Desta forma, pode¬ 
mos afirmar, com base nos coeficientes canonicos normalizados, que, enquanto a variavel calculo apresenta maior 
influencia para a forma^ao de u , a variavel faltas apresenta maior influencia para a formate de v , mesmo apre- 
sentando sinal negativo. 

Entretanto, segundo Sharma (1996) e Favero et al. (2009), a utilizate dos coeficientes canonicos normali¬ 
zados pode prejudicar a analise dos resultados quando houver multicolinearidade consideravel entre as variaveis 
dependentes ou entre as variaveis explicativas. Nestas situates, como inclusive ocorre para os dados do nosso 
exemplo, recomenda-se que a analise da hierarquia de influencias de cada variavel original em cada variavel ca¬ 
nonica seja elaborada com base nas cargas canonicas, que nada mais sao do que as correlates simples entre as 
variaveis originais e as variaveis canonicas. 

No nosso exemplo, as conclusoes com base nas cargas canonicas acabam sendo as mesmas daquelas obtidas 
com base na analise dos coeficientes canonicos normalizados, porem e importante ressaltar que isso nem sempre 
ocorre. Logo, conforme ja dito, enquanto a variavel calculo apresenta maior influencia para a forma^ao de m , a 
variavel faltas apresenta maior influencia para a forma^ao de iq. 

Desta forma, podemos agora responder as duas ultimas perguntas propostas ao final da se^ao 18.2.1.Voltemos 
a elas: 

Qual variavel dependente possui a maior influencia para a formato da variavel canonica u ±9 ou 
seja, qual variavel dependente resultaria em um modelo de regressao com maior R 2 , se as variaveis 
faltas e horas fossem incluidas como explicativas? 
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Case estimassemos dois modelos independentes de regressao multipla, aquele com a variavel calculo como de¬ 
pendente apresentaria um maior R 2 . Ou seja, a quantidade de faltas a escola ao longo do ano e a quantidade de 
horas semanais de estudo influenciam mais significativamente a nota final de calculo do que a nota final de mar¬ 
keting. Alem disso, a quantidade de faltas influencia negativamente as notas destas disciplinas. 

Qual variavel explicativa possui a maior influencia para a formasao da variavel candnica v 9 ou 
seja, qual variavel explicativa (faltas ou horas) apresentaria maior significance estatfstica em mode¬ 
los de regressao elaborados com a variavel calculo ou com a variavel marketing como dependente? 

Caso estimassemos dois modelos independentes de regressao multipla, ou com a variavel calculo ou com a 
variavel marketing como dependente, em ambos os casos a variavel faltas seria estatisticamente mais significante 
(menor valor-P da estatistica t) para explicar o comportamento da variavel dependente do que a variavel horas. 
Em outras palavras, a variavel horas seria a primeira candidata a ser eventualmente excluida de um modelo de 
regressao, caso este fosse estimado por meio do procedimento Stepwise. Ou seja, caso um estudante deseje obter 
notas maiores de calculo ou de marketing, devera prioritariamente evitar faltar as aulas ao longo do ano letivo, e, 
a cada falta, o incremento de horas de estudo semanal devera ser mais do que proporcional, a fim de compensar 
a incidencia daquela falta. 

Desta forma, podemos perceber que a correla^ao canonica pode ser interpretada como uma tecnica de mode¬ 
lagem a partir da qual outras derivam. Sua utilidade pratica consiste, majoritariamente, em auxiliar o pesquisador 
na defini^ao de um constructo de pesquisa que permita identificar, frente a uma grande quantidade de possiveis 
variaveis dependentes, aquela que melhor se adequa aos dados existentes, e, com base em uma grande quantidade 
de candidatas a variaveis preditoras, aquelas que melhor explicam o fenomeno em estudo, desde que respeitadas 
a teoria subjacente e a intui^ao do pesquisador. 

Partiremos agora para a estima^ao dos modelos de correla^ao canonica por meio dos softwares Stata e SPSS. 

183. ESTIMA^AO DE MODELOS DE CORRELA^AO CANONICA NO SOFTWARE STATA 

Seguindo o padrao dos capitulos anteriores, o objetivo desta se^ao nao e o de discutir novamente todos os 
conceitos inerentes a estima^ao de um modelo de correla^ao canonica, porem propiciar ao pesquisador uma 
oportunidade de elabora^ao do mesmo exemplo explorado ao longo deste capitulo por meio do Stata Statistical 
Software®. A reprodu^ao de suas imagens nesta se^ao tern autoriza^ao da StataCorp LP®. 

Voltando ao exemplo desenvolvido na se^ao 18.2, lembremos que o nosso professor tern o interesse em in- 
vestigar se a quantidade anual de faltas a escola e a quantidade semanal de horas de estudo por parte de cada 
aluno influenciam as notas finais das disciplinas de calculo e marketing. Ja partiremos, portanto, para o banco de 
dados final construido pelo professor por meio dos questionamentos elaborados a um grupo de 30 estudantes. 
O banco de dados encontra-se no arquivo NotasCalculoMarketing.dta e e exatamente igual ao apresentado 
naTabela 18.1. 


. desc 





obs: 

30 




vars: 

5 




size: 

750 

(99.9% of 

memory free) 



storage 

display 

value 


variable name 

type 

format 

label 

variable label 

estudante 

strll 

%lls 



calculo 

float 

%8.1g 


nota final de calculo (0 a 10) 

marketing 

float 

%8.1g 


nota final de marketing (0 a 10) 

faltas 

float 

%8.0g 


quantidade de faltas a escola ao longo do 





ano 

horas 

float 

%8.0g 


quantidade de horas semanais de estudo 

| Sorted by: I 


Figura 18.10 Descri^ao do banco de dados NotasCalculoMarketing.dta. 


Inicialmente, podemos digitar o comando desc, que faz com que seja possivel analisarmos as caracteristicas 
do banco de dados, como o numero de observa^oes, o numero de variaveis e a descri^ao de cada uma delas. 
A Figura 18.10 apresenta este primeiro output do Stata. 
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Conforme discutimos na segao 18.2, a estima^ao dos parametros do modelo de correla^ao canonica deve ser 
elaborada com base nas variaveis padronizadas. Entretanto, e importante ressaltar que as correlates canonicas 
e os testes estatisticos apresentam os mesmos resultados se o procedimento for realizado com base nas variaveis 
originais. 

Para que as variaveis sejam padronizadas por meio do procedimento Zscores no Stata, devemos digitar a se- 
guinte sequencia de comandos: 

egen zcalculo = std(calculo) 
egen zmarketing = std(marketing) 
egen zfaltas = std(faltas) 
egen zhoras = std(horas) 

Alem disso, os graficos apresentados nas Figuras 18.1 e 18.2 da se^ao 18.2.1 podem ser obtidos, respectiva- 
mente, por meio dos seguintes comandos do Stata. Ressalta-se, todavia, que a elabora^ao destes graficos e opcio- 
nal e apenas didatica, e nao os apresentaremos novamente aqui. 

graph twoway scatter zcalculo zmarketing 
graph twoway scatter zfaltas zhoras 

As matrizes de variancias e covariancias 2^ 2^, 2 yx e 2 xy calculadas analiticamente na se^ao 18.2.1 podem 
tambem ser geradas no Stata por meio do seguinte comando: 

correlate zcalculo zmarketing zfaltas zhoras, covariance 

O output encontra-se na Figura 18.11. 



Figura 18.11 Matrizes de variancias e covariancias. 


Gerados estes outputs preliminares, considerados opcionais, podemos estimar o modelo de correla^ao canonica 
propriamente dito, por meio da digita^ao do seguinte comando: 

canon (zcalculo zmarketing) (zfaltas zhoras), test(l 2) stderr 

Enquanto as variaveis dependentes devem ser inseridas entre o primeiro conjunto de parenteses, as variaveis 
explicativas sao inseridas entre o segundo conjunto de parenteses. Alem disso, o termo test permite que se verifi- 
que se as duas dimensdes canonicas (minimo entre a quantidade de variaveis dependentes e a quantidade de varia¬ 
veis explicativas inseridas no modelo) serao necessarias para o estudo da rela^ao entre os dois vetores de variaveis. 
Em outras palavras, permite que se obtenha a resposta para a seguinte pergunta: quantas dimensoes canonicas 
sao necessarias para se descrever a rela^ao existente entre os dois vetores de variaveis? Por fim, o ter¬ 
mo stderr faz com que sejam calculados e apresentados o erro-padrao e a significancia estatistica (por meio do 
teste t ) de cada um dos coeficientes canonicos normalizados. Os outputs gerados encontram-se na Figura 18.12. 

A primeira parte dos outputs apresentados na Figura 18.12 traz os parametros estimados dos coeficientes ca¬ 
nonicos normalizados que, conforme discutimos, sao utilizados para formar as variaveis canonicas a partir das 
variaveis originais padronizadas. Podem, portanto, ser interpretados da mesma forma que os coeficientes de uma 
regressao, assumindo-se que a variavel canonica seja a variavel dependente. 
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II . canon (zcalculo zmarketing) (zfaltas 

zhoras) 

test(1 

2) stderr 


| Linear combinations for canonical correlations 


Number of obs 

= 30 

1 

Coef. 

Std. Err. 

t 

P>|tJ 

[95% Conf. 

Interval] 

ul | 







zcalculo | 

.5919238 

.1660198 

3.57 

0.001 

.2523752 

.9314724 

zmarketing | 

.5127381 

.1660198 

3.09 

0.004 

.1731895 

.8522867 

vl | 







zfaltas | 

-.6825873 

.1779383 

-3.84 

0.001 

-1.046512 

-.3186627 

zhoras | 

.3969262 

.1779383 

2.23 

0.034 

.0330015 

.7608508 

u2 | 







zcalculo | 

1.154494 

2.103277 

0.55 

0.587 

-3.14719 

5.456178 

zmarketing | 

-1.191776 

2.103277 

-0.57 

0.575 

-5.49346 

3.109908 

v2 | 







zfaltas | 

1.211469 

2.25427 

0.54 

0.595 

-3.399032 

5.821969 

zhoras | 

1.332678 

2.25427 

0.59 

0.559 

-3.277822 

5.943178 



(Standard 

errors estimated conditionally) II 

Canonical correlations: 






0.8327 0.1179 






| Tests of significance of all canonical 

correlations 




Statistic 

dfl 

df2 

F 

Prob>F 

Wilks 

lambda 

.302316 

4 

52 

10.6436 

0.0000 e 

Pillai 

s trace 

.70732 

4 

54 

7.3868 

0.0001 a 

I Lawley-Hotelling trace 

2.27592 

4 

50 

14.2245 

0.0000 a 

1 Roy's largest root 

2.26183 

2 

27 

30.5347 

0.0000 u 

I Test of significance of canonical correlations 

1-2 




Statistic 

dfl 

df2 

F 

Prob>F 

Wilks 

lambda 

.302316 

4 

52 

10.6436 

0.0000 e 

| Test of significance of canonical correlation 2 





Statistic 

dfl 

df2 

F 

Prob>F 

Wilks 

lambda 

.986103 

1 

27 

0.3805 

0.5425 e 



e = exact. 

a = approximate. 

u = upper bound on F 1 


Figura 18.12 Outputs do modelo de correlate) canonica no Stata. 


Os erros-padrao referem-se aos respectivos parametros estimados e sao utilizados para se testar se determinado coe- 
ficiente e estatisticamente diferente de zero, por meio do teste t. Neste exemplo, conforme discutimos na secao 18.2.2, 
podemos verificar que apenas as expressoes de u x e v x apresentam parametros estatisticamente diferentes de zero, ao mvel 
de significancia de 5%, o que ja indica que a segunda correlacao canonica provavelmente seja estatisticamente igual a ze¬ 
ro. Em outras palavras, podemos afirmar que, enquanto as variaveis calculo e marketing sao estatisticamente significantes, ao 
mvel de significancia de 5%, para a forma^ao apenas da variavel canonica u , as variaveis faltas e horas sao estatisticamente 
significantes, ao mesmo mvel de significancia, para a forma^ao apenas da variavel canonica v y 

Entretanto, como o estudo da significancia estatistica de cada dimensao canonica sera elaborado mais adiante, 
apresentamos, neste momento, as expressoes de todas as variaveis canonicas obtidas: 

u u = 0,5920 .zcalculo i + 0,5127 .zmarketing i 

v u — —0,6826. zfaltas i + 0,3969. zhoras . 

u 2i = 1,154 5.zcalculo i -1,1918 .zmarketing i 

v 2i — 1,2115 .zfaltas i +1,3327 .zhoras . 

que sao exatamente iguais aquelas obtidas na se^ao 18.2.1 por meio de calculo algebrico e matricial. E impor- 
tante novamente enfatizar que o Stata apresenta, em seus outputs , os coeficientes canonicos normalizados. 

Caso o pesquisador deseje gerar, no proprio banco de dados, as variaveis canonicas, podera digitar a seguinte 
sequencia de comandos, em que cada comando refere-se a respectiva variavel canonica: 


predict ul , 
predict vl, 
predict u2, 
predict v2, 


u corr(l) 
v corr(l) 
u corr(2) 
v corr(2) 
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Caso deseje criar as variaveis canonicas por meio dos coeficientes canonicos normalizados, podera, 
alternativamente, digitar a seguinte sequencia de comandos: 


gen ula 
gen via 
gen u2a 
gen v2a 


0.5919238*zcalculo + 0.5127381*zmarketing 
-0.6825873*zfaltas + 0.3969262*zhoras 
1.154494*zcalculo - 1.191776*zmarketing 
1.211469*zfaltas + 1.332678*zhoras 


As variaveis canonicas geradas sao exatamente iguais as obtidas por meio do comando predict. 

A segunda parte dos outputs apresentados na Figura 18.12 refere-se as correlates canonicas propriamen- 
te ditas, com os respectivos testes de significancia estatistica. Podemos verificar que, enquanto a correlagao 
canonica entre u e v x (primeira dimensao) e igual a 0,8327, a correlagao canonica entre u 2 e v 2 (segunda 
dimensao) e igual a 0,1179. Estes valores sao exatamente iguais aos obtidos analiticamente e matricialmente 
na segao 18.2. 

Para efeitos didaticos, o pesquisador pode digitar o seguinte comando, a fim de obter especificamente as cor¬ 
relates entre as variaveis canonicas: 


corr ul vl u2 v2 


Estas correlates canonicas sao apresentadas na Figura 18.13 e, por meio da qual, podemos comprovar que, 
enquanto a correlagao entre u x e v x e igual a 0,8327 e entre u 2 e v 2 e igual a 0,1179, todas as demais correlates 
entre duas distintas variaveis canonicas sao iguais a zero, o que caracteriza o modelo de correlagao canonica pro- 
priamente dito. 


. corr ul vl u2 v2 
(obs=30) 

| ul vl u2 v2 

- + - 

ul | 1.0000 

vl | 0.8327 1.0000 

u2 | -0.0000 -0.0000 1.0000 

_v2 | 0.0000 -0.0000 0.1179 1.0000 


Figura 18.13 Correlates entre as variaveis canonicas. 


Ainda com base na segunda parte dos outputs apresentados na Figura 18.12, podemos verificar, conforme 
discutido na segao 18.2.2, que os resultados dos testes de Wilks’ lambda, Pillai’s trace e Lawley-Hotelling trace 
mostram que apenas a primeira correlagao canonica e estatisticamente significante, ao nivel de significancia de 
5%, ou seja, apenas uma unica dimensao e necessaria para que se descreva a rela^ao existente entre as variaveis 
dependentes calculo e marketing e as variaveis explicativas^/a/to e horas . 

Partiremos, portanto, para a analise da hierarquia de influencias das variaveis originais em cada uma das varia¬ 
veis canonicas. Para tanto, conforme discutimos na se^ao 18.2.3, a fim de que sejam obtidas as cargas canonicas 
(correlates) entre as variaveis canonicas e as variaveis originais padronizadas, devemos digitar o seguinte co¬ 
mando: 

estat loadings 

A Figura 18.14 apresenta os outputs gerados, que correspondem aos valores apresentados na parte inferior da 
Tabela 18.5. Estes valores tambem poderiam ter sido obtidos por meio da digitagao do seguinte comando: 

corr zcalculo zmarketing zfaltas zrenda ul vl u2 v2 

Embora a segunda dimensao canonica nao seja estatisticamente significante, o Stata apresenta as cargas cano¬ 
nicas de ambas as dimensoes, conforme podemos observar nos outputs da Figura 18.14. Entretanto, neste exemplo 
a analise ficara restrita a primeira dimensao canonica. 
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. estat loadings 



Canonical loadings 

for variable list 1 1 

1 

1 

2 

zcalculo | 

zmarketing | 

0.9186 

0.8899 

0.3952 

-0.4562 

Canonical loadings 

for variable list 2 

1 

1 

2 

zfaltas | 

zhoras | 

-0.9584 

0.8712 

0.2854 

0.4909 

1 _ 


Figura 18.14 Cargas canonicas. 


Logo, podemos afirmar que a variavel calculo apresenta maior influencia para a forma^ao de w , ou seja, podemos 
dizer que a quantidade de faltas a escola ao longo do ano e a quantidade de horas semanais de estudo influenciam 
mais significativamente a nota final de calculo do que a nota final de marketing. Em outras palavras, a variavel calculo 
e uma melhor dependente das variaveis faltas e horas , e gerara um R 2 maior caso seja estimado um modelo de re- 
gressao multipla. 

Tambem podemos afirmar, com base na analise especificamente do comportamento das variaveis explicativas, 
que a variavel horas seria a primeira candidata a ser eventualmente excluida de um modelo de regressao, caso este 
fosse estimado por meio do procedimento Stepwise. A variavel faltas, por sua vez, apresenta maior influencia para a 
forma^ao de v , mesmo que a correla^ao entre elas seja negativa, ja que o que nos interessa e a maior magnitude, 
em modulo, entre as cargas canonicas. 

Alem disso, conforme discutimos na se$ao 18.2.1, a modelagem de correla^ao canonica busca maximizar o 
percentual de variancia em um determinado par de variaveis canonicas que e explicado pelas variaveis originals. 
Desta forma, por meio dos outputs apresentados nas Figuras 18.12 e 18.14 e com base nas expressoes (18.14) e 
(18.15), temos, para a primeira dimensao canonica, que: 

^ 7I ^ = ( 0 . 9186 )^( 0 , 8899) 2 =0i8178 
MR uVi =[var(y,t< 1 )].c 1 2 =0,8178.(0,8327) 2 =0,5671 

que indica, para a primeira fun^ao canonica, que 56,71% da variancia das variaveis calculo e marketing e explicado 
pelas variaveis faltas e horas. 

E, para a segunda dimensao canonica, temos que: 

(0.3952/ +(-0.456_2_f= 01822 
MR UiVi =[var(y,« 2 )].c 2 2 =0,1822.(0,1179) 2 =0,0025 

que indica, para a segunda fun^ao canonica, que 0,25% da variancia das variaveis dependentes calculo e marketing 
e explicado pelas variaveis faltas e horas. 

Logo, o percentual total de variancia explicada de calculo e marketing por faltas e horas , chamado de medida de 
redundancia total, e igual a 56,96% (0,5671 4- 0,0025 = 0,5696), que corresponde exatamente ao valor do R 2 
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medio que seria obtido por meio da estimagao de dois modelos de regressao multipla, sendo um com a variavel 
calculo como dependente, e outro com a variavel marketing como dependente. 

A fim de comprovarmos estas afirmagoes, vamos estimar, isoladamente, dois modelos de regressao multipla, 
em que cada um traz, respectivamente, a variavel calculo e a variavel marketing como dependente. Para tanto, de- 
vemos digitar a seguinte sequencia de comandos: 

reg calculo faltas horas 

reg marketing faltas horas 

Os outputs obtidos encontram-se na Figura 18.15. 


| . reg calculo faltas horas 





Source 

1 

SS 

df MS 


Number of obs 
F( 2, 27) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 30 

= 19.21 

= 0.0000 
= 0.5873 

= 0.5567 

= 1.8982 

Model 

Residual 

1 

1 

138.440017 

97.2869838 

2 69.2200083 

27 3.60322162 


Total 

1 

235.727 

29 8.12851725 


calculo 

1 

Coef. 

Std. Err. t 

P>|t| 

[95% Conf. 

Interval] 

faltas 

horas 

cons 

1 

1 

1 

-.0514173 

.1459582 

7.010877 

.0189816 -2.71 
.0686144 2.13 
1.151075 6.09 

0.012 

0.043 

0.000 

-.0903643 

.005173 

4.649067 

-.0124703 

.2867434 

9.372688 

1. reg marketing 

faltas horas 




Source 

1 

SS 

df MS 


Number of obs 
F ( 2 , 21 ) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 30 

= 16.63 

= 0.0000 
= 0.5520 

= 0.5188 

= 2.3594 

Model 

Residual 

1 

1 

185.169625 

150.297042 

2 92.5848124 

27 5.56655711 


Total 

1 

335.466667 

29 11.5678161 


marketing 

1 

Coef. 

Std. Err. t 

P>|t| 

[95% Conf. 

Interval] 

faltas 

horas 

cons 

1 

1 

1 

-.0752026 

.1059107 

7.164993 

.0235928 -3.19 
.0852832 1.24 
1.430709 5.01 

0.004 

0.225 

0.000 

-.1236111 

-.0690759 

4.229421 

-.026794 

.2808973 

10.10057 

I 1 .— .— .— .. .- .- 1 


Figura 18.15 Resultados dos modelos de regressao multipla no Stata. 


Podemos verificar, com base nestes outputs , que a primeira estima^ao (variavel calculo como dependente) ge- 
rou um maior R 2 . Alem disso, tambem e possivel verificar que a variavel horas e menos significante para explicar 
o comportamento das notas das disciplinas, na presenga da variavel faltas. No segundo modelo (variavel marketing 
como dependente), a variavel horas apresentou inclusive um parametro estatisticamente igual a zero, ao nivel de 
significance de 5% (valor-P da estatistica t — 0,225 > 0,05). 

Por fim, podemos verificar que o valor do percentual total de variancia explicada de calculo e marketing por 
faltas e horas , chamado de medida de redundance total, tambem pode ser obtido pela media dos valores de R 2 das 
duas estimates apresentadas na Figura 18.15, ou seja, [(0,5873 + 0,5520) / 2] = 0,5696. 

Esta discussao e importante na medida em que propicia ao pesquisador a defini^ao da melhor variavel de¬ 
pendente a ser inserida em determinado modelo de regressao multipla, alem de permitir a identificagao das mais 
adequadas variaveis explicativas do fenomeno em estudo. 

18.4. ESTIMA^AO DE MODELOS DE CORRELA^AO CANONICA NO SOFTWARE SPSS 

Apresentaremos agora o passo a passo para a elaboragao dos nossos exemplos por meio do IBM SPSS Statistics 
Software®. A reprodugao de suas imagens nesta segao tern autoriza^ao da International Business Machines 
Corporation®. 

Seguindo a mesma logica proposta quando da aplicagao do modelo de correlagao canonica no Stata, ja parti- 
remos para o banco de dados construido pelo professor com base nos questionamentos feitos a cada um de seus 
30 estudantes. O banco de dados utilizado nesta segao encontra-se no arquivo NotasCalculoMarketing.sav. 
Inicialmente, devem ser criadas as variaveis padronizadas a partir de cada uma das variaveis originais, por meio do 
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procedimento Zscores. Para tanto, vamos clicar em Analyze —i» Descriptive Statistics —> Descriptives.... Ao 
selecionarmos todas as variaveis, devemos clicar em Save standardized values as variables, conforme mostra 
a caixa de dialogo da Figura 18.16. 

Apos clicarmos em OK, as variaveis padronizadas serao geradas no proprio banco de dados. 



Figura 18.1 6 Caixa de dialogo para elabora<;ao do procedimento Zscores no SPSS. 


As matrizes de variancias e covariancias x 1/y , 2 yx e x xy , calculadas analiticamente na seqao 18.2.1, podem 
tambem ser geradas no SPSS ao clicarmos em Analyze —» Correlate Bivariate.... Uma caixa de dialogo 
sera aberta, e devemos selecionar apenas as variaveis padronizadas, conforme mostra a Figura 18.17. 

Ao clicarmos em OK, as matrizes de variancias e covariancias das variaveis dependentes e explicativas padro¬ 
nizadas serao geradas nos outputs do software, conforme mostra a Figura 18.18, cujos valores sao iguais aos calcu- 
lados na se^ao 18.2.1 e tambem apresentados na Figura 18.11 da se^ao 18.3. 

Ressalta-se que a elabora^ao das matrizes de variancias e covariancias das variaveis dependentes e explicativas 
e opcional e, desta forma, o pesquisador pode optar pela estima^ao direta do modelo de correla^ao canonica sem 
que este passo intermediario seja elaborado. 

Ao contrario de outras tecnicas aplicadas diretamente por meio de point-and-click no SPSS, a correla^ao 
canonica nao esta diretamente dispomvel numa especifica caixa de dialogo neste software. Desta forma, a esti- 
ma^ao de modelos de correla^ao canonica no SPSS e feita por meio da elabora^ao de uma sintaxe. Para tan¬ 
to, devemos clicar em File —» New —» Syntax. Para o nosso exemplo, devemos digitar a seguinte sintaxe na 
janela que sera aberta: 

MANOVA zcalculo zmarketing with zfaltas zhoras 
/print=error (SSCP COV COR) signif 
(hypoth eigen dimenr) 

/discrim=raw stan estim cor alpha(l.O) 

/design. 

em que o primeiro conjunto de variaveis refere-se as dependentes e o segundo, as explicativas. A Figura 18.19 
apresenta a janela do SPSS com a inclusao da sintaxe correspondente ao nosso exemplo, com destaque para o 
botao Run Selection que devera ser clicado a fim de que o modelo de correla^ao canonica seja estimado. 
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tF 


Bivariate Correlations 


IteriaMes: 


jj<C acts finst Czzi'-Az... 
^ note final de marttetL 
4? quanMatJe de felte... 
quantttadls de hora... 


Zscore: nota final dL 
$ Zscore: nota final d... 
& Zscore: tpanldade... 
Zscore: quanidade... 






CoeraOstot ccetldeafs"-”-"™—-- 

i Pearson Q KendatFs taw-fr O Spearman 

Test ^Significance--—-— 

@ 0n®-tat[a<£ 


H Os® significant cetretatas 


CK j ( pasts 1 f Wi®t ( pr^rQ;] 


i 

; " j 


Figura 18.17 Caixa de dialogo para elaboragao das matrizes de variances e covariancias no SPSS. 


Correlations 




Zscore: note 
final de 
calculo (0 a 

10) 

Zscore: nota 
final de 
marketing (0 
a 10) 

Zscore: 
quantidade 
de faltas a 
escola ao 
longo do ano 

Zscore: 
quantidade 
de horas 
semanais de 
estudo 

Zscore: nota final de 

Pearson Correlation 

1 

,637** 

-,720*‘ 

,689** 

calculo (0 a 10) 

Sig. (2-tailed) 


,000 

,000 

,000 


N 

30 

30 

30 

30 

Zscore: nota final de 

Pearson Correlation 

,637** 

1 

-.726** 

,619** 

marketing (0 a 10) 

Sig. (2-tailed) 

,000 


,000 

,000 


N 

30 

30 

30 

30 

Zscore: quantidadede 
faltas a escola ao longo 

Pearson Correlation 

-,720*‘ 

-,726** 

1 

-695** 

do ano 

Sig. (2-tailed) 

,000 

,000 


,000 


N 

30 

30 

30 

30 

Zscore: quantidadede 
horas semanais de 

Pearson Correlation 

,689** 

,619** 

-.696** 

1 

estudo 

Sig. (2-tailed) 

,000 

,000 

,000 



N 

30 

30 

30 

30 


**. Correlation is significant at the 0.01 level (2-tailed). 

Figura 18.18 Matrizes de variances e covariancias das variaveis padronizadas. 


| Fpe Edit View Data Transform Analyze Direct Marketing Graphs Ujatif&s Add-ons Rim Tools Vffndtow Help 



MANOVA 


1 91 

2 

3 

4 

& 1^:6 


f^AKQVA zcalculo zmarketing with zfaltas zhoras 

/prim-error (SSCP COV COR) stgnif 
(ftypsih eigen dimenr) 

/dtecrim=rai? stan estim cor aJpha(I.O) 

/desip. 


Botao para elaboragao da sintaxe 


Figura 18.19 Janela com inclusao da sintaxe para estimagao do modelo de correlagao canonica no SPSS. 
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A seguir, sao apresentados os principals outputs gerados pelo SPSS. A mesma logica de apresenta^ao dos re- 
sultados que adotamos na se^ao 18.3, quando da apresenta^ao dos resultados da tecnica no Stata, e mantida nesta 
se^ao. 

O primeiro output apresentado refere-se aos parametros estimados dos coeficientes canonicos normalizados, cha- 
mados pelo SPSS de raw canonical coefficients , que sao utilizados para formar as variaveis canonicas a partir das variaveis 
originals padronizadas. Enquanto a Figura 18.20 apresenta os parametros estimados das variaveis canonicas u ] e u 2 
correspondentes as variaveis dependentes, a Figura 18.21 apresenta os parametros estimados das variaveis canonicas 
v e v 2 correspondentes as variaveis explicativas. 


Raw canonical coefficients for DEPENDENT variables 
Function No. 


Variable 


1 


2 


Zcalculo 

Zmarketi 


,59192 -1,15449 

,51274 1,19178 


Figura 18.20 Parametros estimados das variaveis canonicas iq e u 2 . 


Raw canonical coefficients for COVARIATES 
Function No. 

COVARIATE 1 2 

Zfaltas -,68259 -1,21147 

Zhoras ,39693 -1,33268 

Figura 18.21 Parametros estimados das variaveis canonicas v 1 e v r 

Desta forma, podemos apresentar as expressoes de todas as variaveis canonicas obtidas: 

u u = 0,59192 .zcalculo; +0,51274 .zmarketing i 
v u = —0,68259. zfaltas { + 0,39693. zhoras { 
u 2i = —1,15449 .zcalculo { +1,1917 S.zmarketing i 
v 2i = —1,21147 .zfaltas. —1,33268 .zhoras i 

Note que o SPSS oferece, para o segundo par de variaveis canonicas, parametros estimados dos coeficientes 
canonicos normalizados com sinais invertidos em rela^ao aos estimados pelo Stata. Este fato, todavia, nao altera 
em absolutamente nada a analise do modelo de correla^ao canonica. 

Na sequencia, por meio da Figura 18.22, apresentamos o output referente as correlates canonicas entre tq e 
v e entre u 2 e v 2 (Canon. Cor.) e os respectivos autovalores e X 2 (Sq. Cor.), que correspondem ao quadrado 
das correlates canonicas e tambem foram calculados algebricamente na se^ao 18.2.1. 

Enquanto a correlagao canonica entre rq e v x (primeira dimensao) e igual a 0,8327, a correla^ao canonica en¬ 
tre u 2 e v 2 (segunda dimensao) e igual a 0,1179 (valores marcados em negrito na Figura 18.22). 


Eigenvalues and Canonical Correlations 


Root No. 

Eigenvalue 

Pet. 

Cum. Pet. 

Canon Cor. 

Sq. Cor 

1 

2,26183 

99,38080 

99,38080 

,83272 

,69342 

2 

,01409 

,61920 

100,00000 

,11788 

,01390 


Figura 18.22 Correlators canonicas e autovalores. 
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Ja em rela^ao aos resultados dos testes de Wilks’ lambda, Pillai s trace e Lawley-Hotelling trace, podemos veri- 
ficar, com base nos outputs apresentados na Figura 18.23, que apenas a primeira correla^ao canonica e estatistica- 
mente significante, ao nivel de significancia de 5%, ou seja, podemos afirmar que e necessaria apenas uma unica 
dimensao canonica para que seja descrita a rela^ao existente entre as variaveis dependentes calculo e marketing e 
as variaveis explicativas faltas e horas. 

Os resultados dos testes estatisticos multivariados apresentados na Figura 18.23 sao exatamente os mesmos 
daqueles obtidos na se£ao 18.2.2 por meio do uso das expressoes (18.20) a (18.25) e tambem apresentados na 
Figura 18.12 obtida por meio do Stata. 

Dando sequencia a analise dos resultados, as Figuras 18.24 e 18.25, assim como aTabela 18.5 da segao 18.2.3 
e a Figura 18.14 da se^ao 18.3, apresentam, respectivamente, as cargas canonicas para as variaveis dependentes 
e para as variaveis explicativas, que servem para nos auxiliar no estudo da hierarquia de influences das variaveis 
originais em cada uma das variaveis canonicas. 

Com base nos resultados apresentados nas Figuras 18.24 e 18.25, podemos afirmar que, enquanto a variavel 
calculo apresenta maior influencia para a forma^ao de u v ou seja, a quantidade de faltas a escola ao longo do ano 


Multivariate Tests of Significance (S = 2, M = -1/2, N = 12) 


Test Name 

Value 

Approx. F 

Hypoth. 

DF Error DF 

Sig. of F 

Pillais 

,70732 

7,38684 

o 

o 

<_n 

o 

o 

,000 

Hotellings 

2,27592 

14,22451 

o 

o 

50,00 

,000 

Wilks 

,30232 

10,64355 

o 

o 

52,00 

,000 


Roys ,69342 

Note. F statistic for WILKS' Lambda is exact. 


Dimension Reduction Analysis 


Roots 

1 TO 2 

2 TO 2 


Wilks L. 
,30232 
,98610 


F 

10,64355 
0,38050 


Hypoth. DF 
4,00 
1,00 


Error DF 
52,00 
27,00 


Sig. of F 
, 000 
, 543 


Figura 18.23 Resultados dos testes estatisticos multivariados no SPSS. 


Correlations between DEPENDENT and canonical variables 
Function No. 


Zcalculo 

Zmarketi 


,91859 

,88986 


-,39521 

,45624 


Figura 18.24 Cargas canonicas para as variaveis dependentes. 


Correlations between COVARIATES and canonical variables 
CAN. VAR. 


Covariate 


1 


2 


Zfaltas 

Zhoras 


-,95839 -,28545 

,87123 -,49088 


Figura 18.25 Cargas canonicas para as variaveis explicativas. 
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e a quantidade de horas semanais de estudo influenciam mais significativamente a nota final de calculo do que a 
nota final de marketing, a variavel^/to apresenta maior influencia para a forma^ao de v , ou seja, e a variavel mais 
significativa para explicar o comportamento das notas finais das disciplinas de calculo e de marketing. 

Embora a segunda dimensao canonica nao seja estatisticamente significante neste exemplo, o SPSS, assim co- 
mo o Stata, apresenta as cargas canonicas de ambas as dimensoes. Podemos inclusive perceber, ao analisarmos as 
Figuras 18.24 el8.25, que os sinais das cargas canonicas da segunda dimensao canonica estao invertidos em re- 
la^ao aos resultados obtidos pelo Stata (Figura 18.14). Isto nao representa problema algum, pois, caso a segunda 
dimensao canonica fosse estatisticamente significante, ainda assim a hierarquia de influencias das variaveis origi¬ 
nal em cada uma das variaveis canonicas seria definida com base na magnitude das cargas canonicas em modulo. 

Por fim, ao contrario do Stata, o SPSS apresenta em seus outputs (Figura 18.26) as medidas de redundancia das 
duas dimensoes canonicas e a medida de redundancia total. 


Variance in dependent variables explained by canonical variables 


CAN. VAR. 


Pet Var DEP Cum Pet DEP 


Pet Var COV Cum Pet COV 


1 

2 


81,78281 
18,21719 


81,78271 
100,00000 


56,71013 

,25316 


56,71013 

56,96329 


Figura 18.26 Medidas de redundancia das dimensoes canonicas. 


Logo, podemos verificar que, enquanto 56,71% da variancia das variaveis calculo e marketing e explicado pelas 
variaveis faltas e horas para a primeira dimensao canonica, apenas 0,25% da variancia das mesmas variaveis depen- 
dentes e explicado pelas variaveis explicativas para a segunda dimensao canonica. 

Portanto, o percentual total de variancia explicada de calculo e marketing por faltas e horas e igual a 56,96%, que 
e exatamente igual ao valor calculado nas se^oes 18.2.1 e 18.3. Esta medida de redundancia total, conforme ja 
discutimos, corresponde ao valor do R 2 medio que e obtido por meio da estima^ao de dois modelos de regressao 
multipla, sendo um com a variavel calculo como dependente, e outro com a variavel marketing como dependente. 

O SPSS inclusive apresenta, em seus outputs , os resultados das estimates destes dois modelos de regressao 
multipla, conforme mostra a Figura 18.27. 

Com base no que foi discutido quando da analise das cargas canonicas, embora o SPSS nao apresente, no ou¬ 
tput da Figura 18.27, os valores de R 2 de cada uma das estimates dos modelos de regressao multipla, e sabido 


Regression analysis for WITHIN CELLS error term 
Individual Univariate ,9500 confidence intervals 


Dependent 

variable .. 

Zcalculo 

Zscore: 

nota final 

de calculo 

(0 a 10) 

COVARIATE 

B 

Beta 

Std. Err. 

t-Value 

Sig. of t 

Lower -95% 

CL- Upper 

Zfaltas 

,4657 -, 

4657 

, 1719 

-2,7088 

,012 

-,8184 

-,1129 

Zhoras , 

,3657 

3657 

, 1719 

2,1272 

,043 

,0129 

,7185 

Dependent 

variable .. 

Zmarketing 

Zscore: 

nota final 

de marketing (0 a 10) 

COVARIATE 

B 

Beta 

Std. Err. 

t-Value 

Sig. of t 

Lower -95% 

CL- Upper 

Zfaltas 

,5709 -, 

5709 

,1791 

-3,1875 

, 004 

-,9385 

-,2034 

Zhoras , 

,2224 

2224 

,1791 

1,2419 

,225 

-,1451 

, 5899 


Figura 18.27 Resultados dos modelos de regressao multipla no SPSS. 
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que este coeficiente de ajuste e maior para o primeiro modelo, uma vez que a variavel calculo apresenta uma maior 
carga canonica (correla^ao) com a variavel u . Em outras palavras, entre as variaveis calculo e marketing, a primeira 
e considerada a melhor dependente das variaveis falias e horas. 

Alem disso, os resultados apresentados na Figura 18.27 tambem permitem que afirmemos que a variavel faltas 
e a que apresenta maior significance estatistica para explicar o comportamento das notas de calculo e de marke¬ 
ting, na presen^a da variavel horas, o que ja era de se esperar, dado que a variavel faltas e a que apresenta a maior 
carga canonica (correla^ao), em modulo, com a variavel canonica v . No modelo de regressao multipla com a 
variavel marketing como dependente, a variavel horas seria inclusive excluida caso fosse elaborado um procedi- 
mento Stepwise. 

18.5. CONSIDERA0ES FINAIS 

Os modelos de correla^ao canonica sao muito uteis por permitirem que outros modelos sejam derivados 
de seus achados. Com base na analise dos coeficientes canonicos normalizados, da significance estatistica das 
correlates canonicas, das cargas canonicas e das medidas de redundance, pode-se definir um adequado e in- 
teressante constructo de pesquisa que permita identificar, frente a uma grande quantidade de possiveis varia¬ 
veis dependentes, aquela que melhor se adequa aos dados existentes, e, com base em uma grande quantidade 
de candidatas a variaveis preditoras, aquelas que melhor explicam o fenomeno em estudo, desde que respeitada 
a teoria subjacente. 

Em outras palavras, os modelos de correlagao canonica podem dar suporte a intui^ao do pesquisador em re¬ 
late a defini^ao das variaveis a serem inseridas em modelos com uma unica variavel dependente e, desta forma, 
e muito bem-vinda a sua aplica^ao antes de qualquer proposi^ao de constructos em que nao sao conhecidas, a 
priori, as variaveis explicativas significativas e nem tampouco a melhor candidata a variavel dependente. 

18.6. EXERCICIOS 

1. O mesmo professor que elaborou uma pesquisa na escola onde leciona e levantou dados sobre as notas finais 
obtidas nas disciplinas de calculo e de marketing, assim como a quantidade anual de faltas e a quantidade sema- 
nal de horas de estudo de cada um de seus 30 alunos (exemplo elaborado ao longo deste capitulo), deseja agora 
saber se o sexo dos alunos tambem influencia o desempenho em cada uma das disciplinas obrigatorias daquele 
determinado ano letivo. Para tanto, tambem coletou as notas finais de finan^as e de economia. Por fim, preencheu 
um banco de dados com variaveis de cada aluno, tendo por intuito elaborar uma analise preditiva, por meio da 
estima^ao de um modelo de correla^ao canonica. 

As variaveis levantadas, por aluno, sao: 


Variavel 

Descrito 

estudante 

Variavel string que identifica o aluno. 

calculo 

Nota final de calculo (0 a 10). 

marketing 

Nota final de marketing (0 a 10). 

jinangas 

Nota final de fman^as (0 a 10). 

economia 

Nota final de economia (0 a 10). 

faltas 

Quantidade de faltas a escola ao longo do ano. 

horas 

Renda mensal familiar (R$). 

sexo 

Sexo do aluno (feminino = 0; masculino = 1). 


Os dados encontram-se nos arquivos NotasDisciplinas.sav e NotasDisciplinas.dta. 

Por meio da estima^ao de um modelo de correlate canonica, considerando as variaveis calculo, marketing, fi- 
nangas e economia como dependentes e as variaveis faltas, horas e sexo como preditoras, pede-se: 

a) Apresente a tabela de correlates entre todas as variaveis padronizadas. 

b) Estime o modelo de correla^ao canonica e apresente os outputs. 

c) Apresente as expressoes das variaveis canonicas u v v x , u 2 , v 2 , u y v 3 em fun^ao das variaveis padronizadas. 

d) Quais os valores das correlates entre as variaveis canonicas? Apresente a matriz de correlates entre as 
variaveis canonicas. 
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e) Com base nos resultados dos testes de Wilks’ lambda, Pillai s trace e Lawley-Hotelling trace, pode-se afir- 
mar que todas as correlates canonicas sao estatisticamente significantes, ao nivel de significancia de 5%. 
Quantas dimensoes canonicas sao necessarias para que se descreva a rela^ao existente entre as variaveis de- 
pendentes e as variaveis explicativas? 

f) Apresente a tabela de cargas canonicas. 

g) Qual variavel dependente resultaria em um modelo de regressao com maior R 2 , se as variaveis faltas, horas 
e sexo fossem incluidas como explicativas? 

h) Qual variavel explicativa apresentaria maior significancia estatistica em modelos de regressao elaborados 
com cada uma das variaveis dependentes isoladamente? 

i) Calcule a medida de redundancia para as fun^oes canonicas u , u 2 e u v bem como a medida de redundancia 
total. 

j) Elabore quatro regressoes lineares multiplas (uma com cada variavel dependente em fun^ao de todas as 
variaveis explicativas) e compare a media dos R 2 obtidos com a medida de redundancia total. 

2. O departamento de pesquisa de um grupo supermercadista deseja estudar as discrepancias existentes, em ter- 
mos de faturamento e de tiquete medio, entre suas 100 lojas localizadas no territorio nacional. Embora os dire- 
tores da companhia tenham conhecimento sobre a importancia de variaveis sociais, demograficas e operacionais 
para o desempenho de cada loja, o objetivo, neste momento, e estudar apenas se a avalia^ao media dos consumi- 
dores sobre o atendimento e sobre o sortimento de cada loja podem influenciar as variaveis de desempenho a 
serem estudadas (faturamento anual e tiquete medio). Desta forma, foi inicialmente elaborada uma pesquisa com 
uma amostra de consumidores em cada loja, a fim de que fossem coletados dados a respeito das variaveis atendi¬ 
mento e sortimento , definidas com base na nota media obtida (0 a 10) em cada estabelecimento comercial. 

Na sequencia, foi elaborado o banco de dados de interesse, que contem, por loja, as seguintes variaveis: 


Variavel 

Descri^ao 

loja 

Variavel string que varia de 001 a 100 e que identifica o estabelecimento comercial (loja). 

faturamento 

Faturamento anual (R$). 

tiquete 

Tiquete medio (R$), calculado pela razao entre o faturamento anual e a quantidade 
de compras realizadas no periodo. 

atendimento 

Avalia^ao media dos consumidores sobre o atendimento (nota de 0 a 10). 

sortimento 

Avalia^ao media dos consumidores sobre o sortimento (nota de 0 a 10). 


Os dados encontram-se nos arquivos GrupoSupermercadista.sav e GrupoSupermercadista.dta. 

Por meio da estima^ao de um modelo de correla^ao canonica, considerando as variaveis faturamento e tiquete 

como dependentes e as variaveis atendimento e sortimento como preditoras, pergunta-se: 

a) As variaveis dependentes sao significantes, ao nivel de significancia de 5%, para a forma^ao das variaveis 
canonicas iq e uf 

b) As variaveis preditoras sao significantes, ao nivel de significancia de 5%, para a forma^ao das variaveis ca¬ 
nonicas e i^ 2 ? 

c) As duas correlates canonicas sao significantes, ao nivel de significancia de 5%? 

d) Qual variavel dependente possui a maior influencia para a forma^ao da variavel canonica u v ou seja, qual 
a variavel dependente resultaria em um modelo de regressao com maior R 2 , se as variaveis atendimento e 
sortimento fossem incluidas como explicativas? 

e) Qual variavel explicativa possui a maior influencia para a forma^ao da variavel canonica vf 

f) Se voce fosse o principal gestor da companhia, em qual variavel perceptual de consumo voce investiria 
mais recursos para que fosse majorado o faturamento anual do grupo? E caso se deseje aumentar o tiquete 
medio de compra? 





RESOLU^AO DOS EXERCICIOS 


Capi'tulo 1 


4) 


a) Continua. 

b) Ordinal. 

c) Continua. 

d) Discreta. 

e) Continua. 

f) Nominal. 

g) Ordinal. 

h) Ordinal. 

i) Continua, 

j) Nominal. 

k) Binaria. 

l) Ordinal. 

m) Discreta. 

n) Ordinal. 

o) Binaria. 


Capitufo 2 


6) Boxplot. 

7) Grafico de barras — variaveis qualitativas e quantitativas. 

Diagrama de dispersao — variaveis quantitativas. 

8) Grafico de barras (horizontal e vertical), setores ou pizza e diagrama de Pareto. 

9) r - T- T -T-T- , 


Carros vendidos 


Fr (%) 

F c 

<%) 

5 

4 

13,33 

4 

13,33 

6 

5 

16,67 

9 

30 

7 

4 

13,33 

13 

43,33 

8 

6 

20 

19 

63,33 

9 

4 

13,33 

23 

76,67 

10 

4 

13,33 

27 

90 

11 

3 

10 

30 

100 

Soma 

30 

100 




10 ) 


Classe 

F 

t 

Fy. (%) 

F 

ac 

Fy (%) 

54,7 (-61,7 

4 

13,33 

4 

8 

61,7 |- 68,7 

4 

13,33 

8 

16 

68,7 |- 75,7 

10 

33,33 

18 

36 

75,7 (- 82,7 

17 

56,67 

35 

70 

82,7 |- 89,7 

6 

20 

41 

82 

89,7 (- 96,7 

7 

23,33 

48 

96 

96,7 (- 103,7 

2 

6,67 

50 

100 

Soma 

50 

100 
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u) 


Descri^ao da falha 

F. 

Fr (%) 

F 

ac 

Fr (%) 

Desalinhamento 

98 

39,2 

98 

39,2 

Risco 

67 

26,8 

165 

66 

Deformagao 

45 

18 

210 

84 

Desbotamento 

28 

11,2 

238 

95,2 

Oxigena^ao 

12 

4,8 

250 

100 

Soma 

250 

100 




12) a) X= 9,27, Md - 8,685, Mo = 5,12 (ha mais de uma moda). 

b) Qj = 6 ,8425, Q 3 — 11,16. As observances 63 (19,32) e 83 (23,37) sao possiveis outliers. 

c) P 10 = 5,168, P 90 = 14,088. 

d) D 3 = 7,122, D 6 = 9,502. 

e) A - 19,44, D m = 2,698, S 2 = 11,958, S = 3,458, % = 0,3458, CF=37,3%. 

f) Assimetrica positiva. 

g) k — 0,242 (leptocurtica). 

13) r -T-T_ T _, 



Servi9ol 

Servi9o2 

Servi9o3 

Media 

7,56 

9,66 

11,68 

Mediana 

7,5 

9 

12 

Moda 

2* 

4 

5* 

Variancia 

13,435 

20,760 

21,365 

Desvio-padrao 

3,665 

4,556 

4,622 

Erro-padrao 

0,518 

0,644 

0,654 

Q, 

4,75 

6 

8 

Q, 

10,25 

14 

15 


0,083 

0,183 

0,191 

& 

-1,092 

-1,157 

-1,011 


* mais de uma moda. 


c) Servigos 1, 2 e 3: nao existem outliers. 

d) Servigos 1,2 e 3: distribuigao assimetrica positiva, curva platicurtica. 

14) a) X = 39,192, Md = 40, Mo = 40. 

b) Q =35, Q 3 =42, D= 38, P 6 = 41,4 e P 8 =43. 

c) Nao ha outliers. 

d) A = 20, S 2 = 20,560, S = 4,534, S s = 0,414. 

e) g = -0,101,^ 2 =-0,279. 

Distribuigao assimetrica negativa e curva platicurtica. 

15) a) X= 133,560, Md = 136,098, Mo = 137,826. 

b) Q 1 =106,463, 03=163,611,D 2 =97,317,P 13 =82,241 e P 95 =198,636. 

c) Nao ha outliers. 

d) A = 180, S 2 = 1.595,508, S = 39,944, = 2,526. 

e) A s j =-0,107, fe = 0,253. 

Distribuigao assimetrica negativa e curva leptocurtica. 
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16) a) X A = 28,167, Md A = 28, Mo A = 24. 

X = 29, Md n = 28, Mo„ = 28. 

D D D 

b) A a = 20, S* = 27,275, S A = 5,223, S^= 1,066. 

= 18,S* = 16,757, S B = 4,118, S^= 0,841. 

c) A^ao A - a 18 a observa^ao (42) e um possivel outlier. 

A^ao B - a 14 a observa^ao (16) e um possivel outlier. 

d) A^ao A - distribui^ao assimetrica positiva e curva alongada (leptocurtica). 
A^ao B - distribui^ao assimetrica negativa e curva alongada (leptocurtica). 

17) a) X= 52, S = 60,69. 

b) Possiveis outliers : 8 a observa^ao (200) e 13- observa^ao (180). 

c) X — 30,77, S = 24,863; sem outliers. 


Capi'tulo 3 


6) a) . 

Faixa etaria * Inadimplencia Crosstabulation 



Inadimplencia 

Total 

Nao tern 
dfvidas 

Pouco 

endividado 

Mais ou 
menos 
endividado 

Muito 

endividado 

Faixa etaria Ate 20 Count 

6 

2 

0 

0 

8 

Expected Count 

1,1 

1,7 

2,3 

3,0 

8,0 

% within Faixa etaria 

75,0% 

25,0% 

,0% 

,0% 

100,0% 

% within Inadimplencia 

22,2% 

4,8% 

,0% 

,0% 

4,0% 

% of Total 

3,0% 

1,0% 

,0% 

,0% 

4,0% 

21 a 30 Count 

0 

6 

13 

9 

28 

Expected Count 

3,8 

5,9 

8,0 

10,4 

28,0 

% within Faixa etaria 

,0% 

21,4% 

46,4% 

32,1% 

100,0% 

% within Inadimplencia 

,0% 

14,3% 

22,8% 

12,2% 

14,0% 

% of Total 

,0% 

3,0% 

6,5% 

4,5% 

14,0% 

31 a 40 Count 

0 

0 

5 

49 

54 

Expected Count 

7,3 

11,3 

15,4 

20,0 

54,0 

% within Faixa etaria 

,0% 

,0% 

9,3% 

90,7% 

100,0% 

% within Inadimplencia 

,0% 

,0% 

8,8% 

66,2% 

27,0% 

% of Total 

,0% 

,0% 

2,5% 

24,5% 

27,0% 

41 a 50 Count 

0 

0 

24 

16 

40 

Expected Count 

5,4 

8,4 

11,4 

14,8 

40,0 

% within Faixa etaria 

,0% 

,0% 

60,0% 

40,0% 

100,0% 

% within Inadimplencia 

,0% 

,0% 

42,1% 

21,6% 

20,0% 

% of Total 

,0% 

,0% 

12,0% 

8,0% 

20,0% 

51 a 60 Count 

5 

27 

15 

0 

47 

Expected Count 

6,3 

9,9 

13,4 

17,4 

47,0 

% within Faixa etaria 

10,6% 

57,4% 

31,9% 

,0% 

100,0% 

% within Inadimplencia 

18,5% 

64,3% 

26,3% 

,0% 

23,5% 

% of Total 

2,5% 

13,5% 

7,5% 

,0% 

23,5% 

Acimade60 Count 

16 

7 

0 

0 

23 

Expected Count 

3,1 

4,8 

6,6 

8,5 

23,0 

% within Faixa etaria 

69,6% 

30,4% 

,0% 

,0% 

100,0% 

% within Inadimplencia 

59,3% 

16,7% 

,0% 

,0% 

11,5% 

% of Total 

8,0% 

3,5% 

,0% 

,0% 

11,5% 

Total Count 

27 

42 

57 

74 

200 

Expected Count 

27,0 

42,0 

57,0 

74,0 

200,0 

% within Faixa etaria 

13,5% 

21,0% 

28,5% 

37,0% 

100,0% 

% within Inadimplencia 

100,0% 

100,0% 

100,0% 

100,0% 

100,0% 

% of Total 

13,5% 

21,0% 

28,5% 

37,0% 

100,0% 
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b) 27%. 

c) 37%. 

d) 3%. 

e) 30,4%. 

f) 42,1%. 

g) Sim. 

h) 247,642 com sig. — 0,000 (ha associacao entre as variaveis). 

i) _ 


Coeficiente 

Valor 

Sig. 

Phi 

1,113 

0,000 

V de Cramer 

0,642 

0,000 

Contingencia 

0,744 

0,000 


7) a) 


Em pres a * Motivagao Crosstabulation 





Motivagao 





Muito 

desmotivado 

Desmotivado 

Pouco 

motivado 

Motivado 

Muito 

motivado 

Total 

Em pres a 

A 

Count 

36 

8 

6 

0 

0 

50 



Expected Count 

9,2 

9,8 

11,8 

11,2 

8,0 

50,0 



% within Em pres a 

72,0% 

16,0% 

12,0% 

,0% 

,0% 

100,0% 



% within Motivagao 

78,3% 

16,3% 

10,2% 

,0% 

,0% 

20,0% 



% of Total 

14,4% 

3,2% 

2,4% 

,0% 

,0% 

20,0% 


B 

Count 

0 

0 

3 

16 

31 

50 



Expected Count 

9,2 

9,8 

11,8 

11,2 

8,0 

50,0 



% within Empresa 

,0% 

,0% 

6,0% 

32,0% 

62,0% 

100,0% 



% within Motivagao 

,0% 

,0% 

5,1% 

28,6% 

77,5% 

20,0% 



% of Total 

,0% 

,0% 

1,2% 

6,4% 

12,4% 

20,0% 


C 

Count 

0 

8 

32 

9 

1 

50 



Expected Count 

9,2 

9,8 

11,8 

11,2 

8,0 

50,0 



% within Empresa 

,0% 

16,0% 

64,0% 

18,0% 

2,0% 

100,0% 



% within Motivagao 

,0% 

16,3% 

54,2% 

16,1% 

2,5% 

20,0% 



% of Total 

,0% 

3,2% 

12,8% 

3,6% 

,4% 

20,0% 


D 

Count 

10 

33 

7 

0 

o 

50 



Expected Count 

9,2 

9,8 

11,8 

11,2 

8,0 

50,0 



% within Empresa 

20,0% 

66,0% 

14,0% 

,0% 

,0% 

100,0% 



% within Motivagao 

21,7% 

67,3% 

11,9% 

,0% 

,0% 

20,0% 



% of Total 

4,0% 

13,2% 

2,8% 

,0% 

,0% 

20,0% 


E 

Count 

0 

0 

11 

31 

8 

50 



Expected Count 

9,2 

9,8 

11,8 

11,2 

8,0 

50,0 



% within Empresa 

,0% 

,0% 

22,0% 

62,0% 

16,0% 

100,0% 



% within Motivagao 

,0% 

,0% 

18,6% 

55,4% 

20,0% 

20,0% 



% of Total 

,0% 

,0% 

4,4% 

12,4% 

3,2% 

20,0% 

Total 


Count 

46 

49 

59 

56 

40 

250 



Expected Count 

46,0 

49,0 

59,0 

56,0 

40,0 

250,0 



% within Empresa 

18,4% 

19,6% 

23,6% 

22,4% 

16,0% 

100,0% 



% within Motivagao 

100,0% 

100,0% 

100,0% 

100,0% 

100,0% 

100,0% 



% of Total 

18,4% 

19,6% 

23,6% 

22,4% 

16,0% 

100,0% 


b) 18,4%. 

c) 78,3%. 

d) 0%. 

e) 64%. 

f) 77,5%. 

g) Sim. 

h) 375,066 com sig. = 0,000. 
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1 Capitulo 4 1 

1) S ={00,10,01}. 


2) Eventos mutuamente excludentes - nao tern elementos em comum (nao podem ocorrer simultaneamente). 

Eventos independentes - a probabilidade de ocorrencia de um deles nao e condicional a probabilidade de 

ocorrencia do outro. 


3) a) 

1/4. 



b) 

1/13. 


c) 

3/13. 



d) 

10/13. 


4) 95%. 




5) a) 

S = {1,2,...,30}. 


b) 

1/3. 



c) 

1/5. 



d) 

7/15. 



e) 

1/2. 



f) 

1/5. 



g) 

2/3. 



h) 

1/10. 



6) a) 

S = < 

'(1,1), (1,2), (1,3), (1,4), (1,5), (1,6)' 

(2.1) , (2, 2), (2,3), (2, 4), (2,5), (2, 6) 

(3.1) , (3, 2), (3,3), (3, 4), (3, 5), (3, 6) 

(4.1) , (4, 2), (4, 3), (4, 4), (4, 5), (4, 6) 

(5.1) , (5, 2), (5, 3), (5, 4), (5, 5), (5, 6) 

(6.1) , (6, 2), (6, 3), (6, 4), (6, 5),(6,6) j 

>• 

b) 

1/4. 



c) 

1/12. 



d) 

1/9. 



e) 

7/36. 



0 

2/3. 



g) 

1/12. 



Capitulo 5 1 


7l50" 

• 0,02° • 0,98 150 

+ 

750" 

• 0.02 1 • 0,98 149 + 

V 150" 

• 0,02 2 • 0,98 148 

.1 0 j 



> 1 > 


A 2 y 



1) P(X < 2) = 


E (X) = 150 • 0,02 = 3 

Var (X) = 150 • 0,02 ■ 0,98 = 2,94 


0,42 


2) P(X = 1) = 


70 A 

v 1 / 


0,12 • 0 , 88 y 


= 0,38 
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3) 


4) 


P(X = 5) = 0,125 X 0,875 4 = 0,073 
E(X) = 8 
Var(X) 56 


^ 32 ^ 


V29y 


P(X= 33) 

E(X) = 31,6 = 32 


• 0,95 


30 


• 0,05 3 = 1,33% 


5) P(X = 4) = 16,8% 


6) a) P(X < 12) = P(Z < 0,67) = 1 - P(Z > 0,67) = 0,75 

b) P(X < 5) = P(Z < -0,5) = P(Z > 0,5) = 0,3085 

c) P(X > 2) = P(Z > -1) = P(Z < 1) = 1 - P(Z > 1) = 0,8413 

d) P(6 < X < 11) = P(-0,33 < Z < 0,5) - [1 - P(Z > 0,5] - P(Z > 0,33) - 0,3208 

7) z=- 0,84 

8) a) p = n ■ p = 40 * 0,5 = 20 

<7 = -Jn • ~p • (1 — ~p) = -^40 X 0,5 X 0,5 = 3,16 

P(X = 22) = P(21,5 < X < 22,5) = P(0,474 < Z < 0,791) = 0,103 
b) P(X > 25,5) = P(Z > 1,74) = 4,09% 

9) a) P(X > 120) = e -0,028 x 120 - 0,0347 

b) P(X > 60) - e~°’ 028 x 60 = 0,1864 


220 


10) 

a) 

P(X> 220) = e ~' 180 = 0,2946 

150 


b) 

P(X< 150) = 1 - e~ 180 = 0,5654 

11) 

a) 

P(X > 0,5) = e- 1 - 8 x °' 5 = 0,4066 


b) 

P(X< 1,5) = 1 - e -1 ' 8 x 1,5 = 0,9328 

12) 

a) 

P(X > 2) = e -0,33 x 2 = 0,5134 


b) 

P(X< 2,5) = 1 - e~°’ 33x2 - 5 = 0,5654 

13) 

6,304 


14) 

a) 

P(X > 25) = 0,07 


b) 

P(X< 32) = 0,99 


c) 

P(25 < X < 32) = P(X > 25) - P(X 


d) 

28,845 


e ) 

6,908 

15) 

a) 

2,086 


b) 

E(T) =0 


c) 

P&r(T)=l,lll 

16) 

a) 

P(T > 3) = 0,0048 


b) 

P(T < 2) =0,9674 


c) 

P(l,5 <T < 2) =0,0453 


d) 

1,345 


e) 

2,145 



1048 


Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata 


17) a) P(X > 3) = 0,05 

b) 3,73 

c) 4,77 

d) £(70=1,14 

e) Var(X)=0,9S 


Capitulo 6 


5) Amostragem aleatoria simples sem reposi^ao. 

6 ) Amostragem sistematica. 

7) Amostragem estratificada. 

8 ) Amostragem estratificada. 

9) Amostragem por conglomerados em dois estagios. 

10) Utilizando a expressao (6.8) (AAS para estimar a proporfao de uma popula^ao finita), tem-se que n = 262. 

11) Utilizando a expressao (6.9) (amostragem estratificada para estimar a media de uma popula^ao infinita), 
tem-se que n =1.255. 

12) Utilizando a expressao (6.20) (amostragem por conglomerados em um estagio para estimar a propor^ao 
de uma popula^ao infinita), tem-se que m- 35. 


Capitulo 7 


7) 

8 ) 

9) 

10 ) 


Para os testes de K-S e S-W, tem-se que P = 0,200 e 0,151, respectivamente. Portanto, como P > 0,05, 
os dados seguem uma distribuifao normal. 

Os dados seguem uma distribuifao normal (P = 0,200 > 0,05). 

As variancias sao homogeneas (P = 0,876 > 0,05 - teste de Levene). 

Como <T e desconhecido, o teste adequado eo (de Student: 

65-60 


T al = 


3,5 A/36 


= 8,571; t c = 2,030; como T m1 > t c —> rejeita-se H Q (jl ^ 60). 


11) T cd - 6,921 e P-value = 0,000 < 0,005 — > rejeita-se H Q (jJL x ^ /X 2 ). 

12) T cal - 11,953 e P-value - 0,000 < 0,025 —> rejeita-se H Q {p antes ^ l^ depoi ), ou seja, houve melhoria apos o 
tratamento). 

13 > F «i = 2,476 e P-value = 0,1 > 0,05 —» nao se rejeita-se H Q (nao ha diferen^a entre as medias 
populacionais). 
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Capitulo 8 


4) Teste dos sinais. 

5) Aplicando-se o teste binomial para pequenas amostras, como P = 0,503 > 0,05, nao se rejeita H Q , o que 
permite concluir, ao nivel de confian^a de 95%, que nao ha diferen^a na preferencia dos consumidores. 

6) Aplicando-se o teste qui-quadrado, como ^ ^ (6,100 > 5,991) ou P < a (0,047 < 0,05), rejeita-se H Q , 

o que permite concluir, ao nivel de confian^a de 95%, que ha diferen^a na preferencia dos leitores. 

7) Aplicando-se o teste de Wilcoxon, como < - z c (-3,135 < -1,645) ou P < a (0,0085 < 0,05), rejeita-se 

H Q , o que permite concluir, ao nivel de confian^a de 95%, que a dieta acarretou redu^ao de peso. 

8) Aplicando-se o teste U de Mann-Whitney (os dados nao seguem distribui^ao normal), como z { > — z c 
(-0,129 > - 1,96) ou P> a (0,897 > 0,05),nao se rejeita H Q ,o que permite concluir,ao nivel de confian^a 
de 95%, que as amostras provem de populates com medianas iguais. 

9) Aplicando-se o teste Q de Cochran, como Q cd > Q c (8,727 > 7,378) ou P < a (0,013 < 0,025), rejeita-se 
H Q , o que permite concluir, ao nivel de confian^a de 97,5%, que a propor^ao de alunos com alto nivel de 
aprendizado nao e a mesma em cada disciplina. 

10) Aplicando-se o teste de Friedman, como F > F (9,190 > 5,991) ou P < a (0,01 < 0,05), rejeita-se H Q , 
o que permite concluir, ao nivel de confian^a de 95%, que ha diferen^as entre os tres servi^os bancarios. 


Capitulo 9 


1) a) 


11 

5 

13 

,006 

39 

64 

87 

78 

40 

56 

,014 

56 

53 

88 

79 

25 

58 

,014 

0 

26 

92 

80 

30 

55 

,014 

62 

61 

86 

81 

38 

48 

,014 

75 

36 

89 

82 

1 

15 

,024 

71 

55 

91 

83 

2 

14 

,024 

72 

58 

90 

84 

6 

83 

,024 

74 

0 

95 

85 

4 

7 

,024 

76 

68 

94 

86 

30 

42 

,038 

80 

0 

91 

87 

5 

39 

,038 

77 

70 

92 

88 

29 

40 

,055 

65 

78 

96 

89 

31 

38 

,075 

69 

81 

93 

90 

2 

3 

,075 

83 

73 

93 

91 

1 

30 

,153 

82 

86 

94 

92 

5 

25 

,209 

87 

79 

95 

93 

2 

31 

,246 

90 

89 

96 

94 

1 

4 

,246 

91 

85 

97 

95 

5 

6 

,723 

92 

84 

97 

96 

2 

29 

,760 

93 

88 

98 

97 

1 

5 

2,764 

94 

95 

98 

98 

1 

2 

8,466 

97 

96 

99 

99 

1 

9 

173,124 

98 

0 

0 


A partir da tabela do esquema de aglomera^ao, e possivel verificar que um grande salto de distancia 
euclidiana ocorre do 98° estagio (quando restam apenas dois clusters) para o 99° estagio.A analise do 
dendrograma tambem auxilia nessa interpreta^ao. 
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c) Sim. A partir do esquema de aglomera^ao, e possivel verificar que a observa^ao 9 (Antonio) nao 
havia se aglomerado ate o momento anterior ao ultimo estagio. Pelo dendrograma, tambem e pos¬ 
sivel verificar que este estudante difere consideravelmente dos demais, o que resulta, nesta situa^ao, 
na forma^ao de apenas dois clusters. 

d) 


77 

13 

34 

,537 

67 

0 

86 

78 

27 

29 

,537 

62 

60 

91 

79 

1 

4 

,537 

63 

69 

85 

80 

41 

46 

,754 

0 

0 

94 

81 

6 

82 

1,103 

72 

0 

92 

82 

30 

55 

1,103 

58 

53 

90 

83 

5 

74 

1,584 

68 

0 

92 

84 

16 

57 

1,584 

55 

73 

88 

85 

1 

38 

1,584 

79 

66 

91 

86 

13 

39 

1,584 

77 

64 

90 

87 

2 

15 

2,045 

74 

76 

89 

88 

14 

16 

2,149 

61 

84 

96 

89 

2 

28 

2,149 

87 

71 

95 

90 

13 

30 

3,091 

86 

82 

93 

91 

1 

27 

3,091 

85 

78 

94 

92 

5 

6 

4,411 

83 

81 

96 

93 

9 

13 

4,835 

75 

90 

98 

94 

1 

41 

7,134 

91 

80 

95 

95 

1 

2 

10,292 

94 

89 

97 

96 

5 

14 

12,374 

92 

88 

97 

97 

1 

5 

18,848 

95 

96 

98 

98 

1 

9 

26,325 

97 

93 

0 
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e) A existencia de um outlier pode fazer outras observances nao similares entre si acabarem alocadas 
em um mesmo agrupamento pelo fato de se diferenciarem substancialmente da primeira. Logo, a 
reaplicanao da tecnica, com a exclusao ou retengao de outliers, gera novos agrupamentos mais bem 
estruturados e formados com maior homogeneidade interna. 


2) a) 
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b) 


Agglomeration Schedule 


Stage 

Cluster Combined 

- 

Coefficients 

Stage Cluster First Appears 

Next Stage 

Cluster 1 

Cluster 2 

Cluster 1 

Cluster 2 

1 

8 

18 

2,000 

0 

0 

5 

2 

4 

16 

2,000 

0 

0 

4 

3 

1 

10 

2,000 

0 

0 

6 

4 

4 

9 

2,000 

2 

0 

5 

5 

4 

8 

2,000 

4 

1 

7 

6 

1 

5 

2,000 

3 

0 

7 

7 

1 

4 

2,000 

6 

5 

8 

8 

1 

3 

2,828 

7 

0 

9 

9 

1 

2 

6,633 

8 

0 

17 

10 

11 

12 

12,329 

0 

0 

11 

11 

6 

11 

14,697 

0 

10 

15 

12 

15 

17 

23,409 

0 

0 

13 

13 

7 

15 

24,495 

0 

12 

14 

14 

7 

14 

32,802 

13 

0 

16 

15 

6 

13 

35,665 

11 

0 

16 

16 

6 

7 

40,497 

15 

14 

17 

17 

1 

6 

78,256 

9 

16 

0 


A partir da tabela do esquema de aglomera^ao, e possivel verificar que um grande salto de distancia 
euclidiana ocorre do 16- estagio (quando restam apenas dois clusters) para o 17- estagio. A analise do 
dendrograma tambem auxilia nesta interpreta^ao. 


C) 


Dendrogram using Single Linkage 

Rescaled Distance Cluster Combine 

0 5 10 15 20 25 

Regional 3 8 

Regional 3 18 

Regional 3 4 

Regional 3 16 

Regional 3 9 

Regional 3 1 

Regional 3 10 

Regional 3 5 

Regional 3 3 

Regional 3 2 

Regional 1 15 

Regional 1 17 

Regional 1 7 

Regional 1 14 

Regional 2 11 

Regional 2 12 

Regional 2 6 

Regional 2 13 



Ha indicios, de fato, de dois agrupamentos de lojas. 
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Derived Stimulus Configuration 
Euclidean distance model 


Loja12 


Loja13 


Lojal 1 


Loja09 Loja18 

■ ^°j a ® 2 o Loja04 

Loja03 1 




Loja07 


Lojal 4 


LojaOl 

Lojal 0 


O grafico bidimensional gerado por meio do escalonamento multidimensional permite que sejam 
visualizados estes dois clusters , sendo um mais homogeneo que o outro. 


ANOVA 



Cluster 

Error 





Mean Square 

df 

Mean Square 

df 

F 

Sig. 

avaliapao media dos 
consumidores sobre o 
atendimento (0 a 100) 

10802,178 

1 

99,600 

16 

108,456 

,000 

avaliapao media dos 
consumidores sobre o 
sortimento (0 a 100) 

12626,178 

1 

199,100 

16 

63,416 

,000 

avaliapao media dos 
consumidores sobre a 
organizapao da loja (0 a 
100) 

18547,378 

1 

314,900 

16 

58,899 

,000 


The F tests should be used only for descriptive purposes because the clusters have been chosen to 
maximize the differences among cases in different clusters. The observed significance levels are not 
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are 
equal. 


E possivel afirmar que os dois clusters formados apresentam medias estatisticamente diferentes para 
as tres variaveis consideradas no estudo, ao nivel de significance de 5% ( Prob . F < 0,05). A variavel 
considerada mais discriminante dos grupos e a com maior estatistica F, ou seja, a variavel atendimen- 
to(F= 108,456). 


Single Linkage * Cluster Number of Case 

Crosstabulation 


Count 



Cluster Number of Case 

Total 

1 

2 

Single Linkage 1 

10 

0 

10 

2 

0 

8 

8 

Total 

10 

8 

18 


Sim, existe correspondence entre as aloca^oes das observances nos grupos obtidas pelos metodos 
hierarquicos e k-means. 
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g) Sim, com base no dendrograma gerado, e possivel verificar que todas as lojas pertencentes a regional 3 
formam o cluster 1, que apresenta as menores medias para todas as variaveis, conforme mostra a tabela 
a seguir. Esse fato pode determinar alguma a<pao especifica de gestao sobre estas lojas. 


Descriptives 








95% Confidence Interval for 
Mean 





N 

Mean 

Std. Deviation 

Std. Error 

Lower Bound 

Upper Bound 

Minimum 

Maximum 

avaliapao media dos 
consumidores sobre o 

1 

10 

6,200 

3,1903 

1,0088 

3,918 

8,482 

2,0 

14,0 

atendimento (0 a 100) 

2 

8 

55,500 

14,6483 

5,1789 

43,254 

67,746 

38,0 

78,0 


Total 

18 

28,111 

27,0030 

6,3647 

14,683 

41,539 

2,0 

78,0 

avaliapao media dos 
consumidores sobre o 

1 

10 

4,200 

1,4757 

,4667 

3,144 

5,256 

2,0 

6,0 

sortimento (0 a 100) 

2 

8 

57,500 

21,2670 

7,5190 

39,720 

75,280 

32,0 

86,0 


Total 

18 

27,889 

30,4976 

7,1884 

12,723 

43,055 

2,0 

86,0 

avaliapao media dos 
consumidores sobre a 

1 

10 

4,400 

1,2649 

,4000 

3,495 

5,305 

2,0 

6,0 

organizapao da loja (0 a 

2 

8 

69,000 

26,7902 

9,4718 

46,603 

91,397 

38,0 

100,0 

100) 

Total 

18 

33,111 

37,2478 

8,7794 

14,588 

51,634 

2,0 

100,0 


Apos a elabora^ao de nova analise de agrupamentos, sem as lojas do cluster 1 (regional 3), sao obti- 
dos o novo esquema de aglomera^ao e o dendrograma correspondente, a partir dos quais pode-se 
visualizar de forma mais clara as diferen^as entre as lojas das regionais 1 e 2. 


Agglomeration Schedule 


Stage 

Cluster Combined 

Coefficients 

Stage Cluster First Appears 

Next Stage 

Cluster 1 

Cluster 2 

Cluster 1 

Cluster 2 

1 

11 

12 

12,329 

0 

0 

2 

2 

6 

11 

14,697 

0 

1 

6 

3 

15 

17 

23,409 

0 

0 

4 

4 

7 

15 

24,495 

0 

3 

5 

5 

7 

14 

32,802 

4 

0 

7 

6 

6 

13 

35,665 

2 

0 

7 

7 

6 

7 

40,497 

6 

5 

0 


Regional 2 11 


Regional 2 12 


Regional 2 6 


Regional 2 13 


Regional 1 15 


Regionall 17 


Regional 1 7 


Regionall 14 


Dendrogram using Single Linkage 

Rescaled Distance Cluster Combine 
5 10 15 20 

_l-1-1-L_ 


25 
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Agglomeration Schedule 


Stage 

Cluster Combined 

Coefficients 

Stage Cluster First Appears 

Next Stage 

Cluster 1 

Cluster 2 

Cluster 1 

Cluster 2 

1 

18 

33 

1,000 

0 

0 

8 

2 

19 

34 

,980 

0 

0 

7 

3 

17 

32 

,980 

0 

0 

7 

4 

16 

31 

,980 

0 

0 

21 

5 

20 

35 

,960 

0 

0 

17 

6 

23 

27 

,880 

0 

0 

9 

7 

17 

19 

,880 

3 

2 

20 

8 

18 

26 

,860 

1 

0 

11 

9 

21 

23 

,860 

0 

6 

18 

10 

11 

14 

,860 

0 

0 

18 

11 

15 

18 

,853 

0 

8 

19 

12 

13 

30 

,840 

0 

0 

14 

13 

22 

29 

,840 

0 

0 

25 

14 

2 

13 

,820 

0 

12 

19 

15 

4 

5 

,820 

0 

0 

26 

16 

6 

24 

,800 

0 

0 

28 

17 

12 

20 

,800 

0 

5 

27 

18 

11 

21 

,797 

10 

9 

24 

19 

2 

15 

,793 

14 

11 

23 

20 

17 

25 

,790 

7 

0 

25 

21 

3 

16 

,790 

0 

4 

23 

22 

1 

10 

,780 

0 

0 

30 

23 

2 

3 

,770 

19 

21 

28 

24 

9 

11 

,768 

0 

18 

27 

25 

17 

22 

,764 

20 

13 

31 

26 

4 

8 

,750 

15 

0 

32 

27 

9 

12 

,749 

24 

17 

30 

28 

2 

6 

,742 

23 

16 

33 

29 

7 

28 

,740 

0 

0 

31 

30 

1 

9 

,728 

22 

27 

34 

31 

7 

17 

,727 

29 

25 

32 

32 

4 

7 

,703 

26 

31 

33 

33 

2 

4 

,513 

28 

32 

34 

34 

1 

2 

,484 

30 

33 

0 


Como se trata de uma medida de semelhan^a (similaridade), os valores dos coeficientes sao decres- 
centes no esquema de aglomera^ao. A partir dessa tabela, e possivel verificar que um consideravel 
salto em rela^ao aos demais ocorre do 32- estagio (quando sao formados tres clusters) para o 33- es- 
tagio de aglomera^ao. A analise do dendrograma auxilia nesta interpreta^ao. 
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De fato, a solu^ao com tres agrupamentos e bastante recomendavel. 



Sim, existe correspondence entre os setores de atua^ao e as aloca^oes das empresas nos clusters , ou 
seja, pode-se afirmar, para a amostra em analise, que empresas atuantes no mesmo setor apresentam 
similaridades em rela^ao ao modo como sao realizados as operates e os processos de tomada de 
decisao, pelo menos em rela^ao a percep^ao dos gestores. 
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4) a) 


Proximity Matrix 



Correlation between Vectors of Values j 

Case 


2:2 

3:3 

4:4 

5:1 

6:2 

7:3 

8:4 

9:1 

10:2 


12:4 

13:1 

14:2 

15:3 

16:4 

1:1 


,866 



,998 

,945 

-,996 



.971 


-,500 

,999 

,997 


,327 

2:2 

,866 


-.866 


,896 

,655 

-.908 

-,500 

,866 

,721 

-,856 

-,866 

,891 

,822 

-,881 

-,189 

3:3 

-1,000 

-,866 



-.998 

-.945 

,996 



-.971 

1,000 

,500 

-,999 

-,997 

1,000 

-,327 

4:4 

,000 




-.064 

,327 

,091 



,240 

-.020 

,866 

-.052 

,082 

,030 

,945 

5:1 

,998 

,896 

-.998 

-.064 

1,000 

,922 


-.064 

,998 

,953 

-.996 

-.554 

1,000 

,989 

-,999 

,266 

K 

,945 

,655 

-,945 

,327 

,922 


-.911 

,327 

,945 

,996 

-.951 

-.189 

,926 

,969 

-.935 

,619 

Up 

-.996 

-,908 

,996 

,091 

-1,000 

-.911 


,091 

-,996 

-,945 

,994 

,577 

-.999 

-.985 

,998 

-.240 

■ 

,000 




-,064 

,327 

,091 



,240 

-,020 

,866 

-.052 

,082 

,030 

,945 

9:1 

1,000 

,866 



,998 

,945 

-.996 

,000 


,971 

-1,000 

-,500 

,999 

,997 

-1,000 

,327 

10:2 

,971 

,721 

-.971 

,240 

,953 

,996 

-,945 

,240 

,971 


-,975 

-.277 

,957 

,987 

-.963 

,545 

11:3 

-1,000 

-.856 



-.996 

-.951 

,994 

-.020 


-.975 

1,000 

,483 

-.997 

-.998 

,999 j 

-.346 

12:4 

-.500 

-.866 


,866 

-.554 

-,189 

,577 

,866 


-.277 

,483 

1,000 

-.545 

-.427 

,526 

,655 

13:1 

,999 

,891 

-.999 

-,052 

1,000 

,926 

-,999 

-.052 

,999 

,957 

-.997 

-,545 

1,000 

,991 

-1,000 

,277 

14:2 

,997 

,822 

-.997 

,082 

,989 

,969 

-.985 

,082 

,997 

,987 

-.998 

-,427 

,991 


-.994 

,404 

15:3 


-,881 



-.999 

-.935 

,998 



-.963 

,999 

,526 

-1,000 

-,994 

1,000 

-,298 

16:4 

,327 

-.189 

-.327 

,945 

,266 

,619 

-.240 

,945 

,327 

,545 

-.346 

,655 

,277 

,404 

-,298 



This is a similarity matrix 


b) 


Agglomeration Schedule 


Stage 

Cluster Combined 

Coefficients 

Stage Cluster First Appears 

Next Stage 

Cluster 1 

Cluster 2 

Cluster 1 

Cluster 2 

1 

1 

9 

1,000 

0 

0 

6 

2 

4 

8 

1,000 

0 

0 

11 

3 

5 

13 

1,000 

0 

0 

6 

4 

3 

11 

1,000 

0 

0 

5 

5 

3 

15 

1,000 

4 

0 

7 

6 

1 

5 

,999 

1 

3 

8 

7 

3 

7 

,998 

5 

0 

15 

8 

1 

14 

,997 

6 

0 

10 

9 

6 

10 

,996 

0 

0 

10 

10 

1 

6 

,987 

8 

9 

12 

11 

4 

16 

,945 

2 

0 

13 

12 

1 

2 

,896 

10 

0 

14 

13 

4 

12 

,866 

11 

0 

14 

14 

1 

4 

,619 

12 

13 

15 

15 

1 

3 

,577 

14 

7 

0 


Como a correla^ao de Pearson esta sendo utilizada como medida de semelhan^a (similaridade) en- 
tre observances, os valores dos coeficientes sao decrescentes no esquema de aglomera^ao. A partir 
dessa tabela, e possivel verificar que um salto relevante em rela^ao aos demais ocorre do 13° estagio 
(quando sao formados tres clusters de periodos semanais) para o 14° estagio de aglomera^ao. A ana- 
lise do dendrograma auxilia nesta interpreta^ao. 
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c) 


Dendrogram using Single Linkage 

Rescaled Distance Cluster Combine 

10 15 20 

_I_!_I_ 


De fato, a solu^ao com tres agrupamentos de semanas e bastante recomendavel nesse momento. 
Mais que isso, e possivel verificar que o segundo e o terceiro agrupamentos sao formados exclusi- 
vamente por periodos referentes as terceiras e quartas semanas de cada mes, respectivamente, o que 
pode oferecer subsidios a comprova^ao de existencia, para os dados do exemplo, de recorrencia do 
comportamento conjunto de vendas de banana, laranja e ma^a nesses periodos. A tabela a seguir 
mostra a associa^ao entre a variavel semana_mes e a aloca^ao de cada observa^ao em determinado 
cluster. 



Single Linkage 

1 

2 

3 

Count 

Count 

Count 

semana_mes 1 

4 

0 

0 

2 

4 

0 

0 

3 

0 

4 

0 

4 

0 

0 

4 






Resolugao dos Exercicios 


1061 


Capitulo 10 


1) a) Temos, para cada fator, os seguintes autovalores: 

Fator 1: (0,917) 2 + (0,874) 2 + (-0,844) 2 + (0,031) 2 = 2,318 
Fator 2: (0,047) 2 + (0,077) 2 + (0,197) 2 + (0,979) 2 = 1,005 

b) Os percentuais de variancia compartilhada por todas as variaveis para a composi^ao de cada fator sao: 
Fator 1: -^—= 0,580 (58,0%) 

Fator 2: = 0,251 (25,1%) 

O percentual total de variancia perdida das quatro variaveis para a extra^ao desses dois fatores e: 

1 - 0,580 - 0,251 - 0,169 (16,9%) 

c) Os percentuais de variancia compartilhada para a formapao dos dois fatores (comunalidades) sao: 
comunalidadc /( / (;( y £ , = (0,917) 2 +(0,047) 2 = 0,843 

comunalidade,^^ = (0,874) 2 + (0,077) 2 =0,770 
comunalidade^^^ = (-0,844) 2 + (0,197 ) 2 = 0,751 
comunalidade pessoa? = (0,03l) 2 + (0,979) 2 = 0,959 

d) As expressoes de cada variavel padronizada, em funpao dos dois fatores extraidos, sao: 

Zidadej = 0,917./q ; + 0,047.F 2; - + u i , R 2 = 0,843 

Zrfixai = 0,874.F^- + 0,077.F 2; - +w ; -, R 2 =0,770 
Zrvariavelj = -0,844.F lz - + 0,197.F 2i - + u jt R 2 =0,751 
Zpessoasj = 0,031 F| ; + 0,979.F 2z - + Uj , R 2 = 0,959 
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f) Enquanto as variaveis idade, rfixa e rvariavel apresentam elevada correla^ao em modulo com o pri- 
meiro fator (eixo das abscissas), a variavel pessoas apresenta forte correla^ao com o segundo fator 
(eixo das ordenadas). Esse fenomeno pode ser decorrente do fato de clientes com idade mais avan- 
£ada, por apresentarem aversao ao risco, destinam maior percentual de seus investimentos para fun- 
dos de renda fixa, como poupan^a ou CDB. Por outro lado, embora a variavel rvariavel apresente 
elevada correlacao em modulo com o primeiro fator, a carga fatorial absoluta apresenta sinal ne- 
gativo. Isso mostra que clientes mais j ovens investem uma propor^ao maior de seus investimentos 
em fundos de renda variavel, como a^oes. Por fim, a quantidade de pessoas que mora na residencia 
(variavel pessoas) apresenta baixa correlacao com as demais variaveis e, nesse sentido, acaba por apre- 
sentar elevada carga fatorial com o segundo fator. 

a) 

ANO 1 


KMO and Bartlett's Test 


Kaiser-Meyer-Olkin Measure of Sampling Adequacy. 

,719 

Bartlett's Test of Approx. Chi-Square 

89,637 

Sphericity ^ 

6 

Sig. 

,000 


ANO 2 

KMO and Bartlett's Test 


Kaiser-Meyer-Olkin Measure of Sampling Adequacy. 

,718 

Bartlett's Test of Approx. Chi-Square 

86,483 

Sphericity 

df 

6 

Sig. 

,000 


Com base nas estatisticas KMO, pode-se afirmar que a adequa^ao global da analise fatorial e con- 
siderada media para cada um dos anos de estudo (KMO = 0,719 para o primeiro ano, e KMO = 
0,718 para o segundo ano). 

Em ambos os periodos, as estatisticas ^ artlett permitem-nos rejeitar, ao nivel de significancia de 5% e 
com base nas hipoteses do teste de esfericidade de Bartlett, que as matrizes de correlates sejam es- 
tatisticamente iguais a matriz identidade de mesma dimensao, visto que ^ artlett = 89,637 ( Sig . /^ art]ett 
< 0,05 para 6 graus de liberdade) para o primeiro ano e j^ ardett = 86,483 (Sig. j^ artlett < 0,05 para 
6 graus de liberdade) para o segundo ano. 

Portanto, a analise fatorial por componentes principals e apropriada para cada um dos anos de 
estudo. 


b) 


ANO 1 

Total Variance Explained 



Initial Eigenvalues 

Extraction Sums of Squared Loadings 

Component 

Total 

% of Variance 

Cumulative % 

Total 

% of Variance 

Cumulative % 

1 

2,589 

64,718 

64,718 

2,589 

64,718 

64,718 

2 

,730 

18,247 

82,965 




3 

,536 

13,391 

96,357 




4 

,146 

3,643 

100,000 





Extraction Method: Principal Component Analysis. 
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ANO 2 

Total Variance Explained 



Initial Eigenvalues 

Extraction Sums of Squared Loadings j 

Component 

Total 

% of Variance 

Cumulative % 

Total 

% of Variance 

Cumulative % 

1 

2,566 

64,149 

64,149 

2,566 

64,149 

64,149 

2 

,737 

18,435 

82,584 




3 

,543 

13,577 

96,162 




4 

,154 

3,838 

100,000 





Extraction Method: Principal Component Analysis. 


Com base no criterio da raiz latente, e extraido apenas um fator em cada um dos anos, com o res¬ 
pective autovalor: 

Ano 1:2,589 
Ano 2:2,566 

O percentual de variancia compartilhada por todas as variaveis para a composigao do fator em ca¬ 
da ano e: 

Ano 1:64,718% 

Ano 2:64,149% 


ANO 1 


Component Matrix® 



Component 


1 

Corruption Perception 

Index no ano 1 

(Transparency 

Internacional) 

,900 

Assassinates a cada 
100.000 habitantes no 
ano 1 (OMS, UNODC e 
GIMD) 

-,614 

PIB/capita no ano 1 (em 

US$ ajustado pela 
inflapao - base 2000) 
(Banco Mundial) 

,911 

Anos de escolaridade por 
pessoas com mais de 25 
anos de vida no ano 1 
(IHME) 

,755 


Extraction Method: Principal 
Component Analysis. 

a. 1 components extracted. 

ANO 1 

Communalities 



Initial 

Extraction 

Corruption Perception 
Indexno ano 1 
(Transparency 
Internacional) 

1,000 

,810 

Assassinates a cada 
100.000 habitantes no 
ano 1 (OMS, UNODC e 
GIMD) 

1,000 

,378 

PIB/capita no ano 1 (em 
US$ ajustado pela 
inflagao - base 2000) 
(Banco Mundial) 

1,000 

,830 

Anos de escolaridade por 
pessoas com mais de25 
anos de vida no ano 1 
(IHME) 

1,000 

,571 


Extraction Method: Principal Component 
Analysis. 
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ANO 2 


Component Matrix 3 



Component 


1 

Corruption Perception 

Index no ano 2 
(Transparencia 
Internacional) 

,899 

Assassinatos a cada 
100.000 habitantes no 
ano 2 (OMS, UNODC e 
GIMD) 

-,608 

PIB/capita no ano 2 (em 

US$ ajustado pela 
inflapao - base 2000) 
(Banco Mundial) 

,908 

Anos de escolaridade por 
pessoas com mais de 25 
anos de vida no ano 2 
(IHME) 

,750 


Extraction Method: Principal 
Component Analysis. 


a. 1 components extracted. 

ANO 2 


Communalities 



Initial 

Extraction 

Corruption Perception 

Index no ano 2 
(Transparencia 
Internacional) 

1,000 

,808 

Assassinatos a cada 
100.000 habitantes no 
ano 2 (OMS, UNODC e 
GIMD) 

1,000 

,370 

PIB/capita no ano 2 (em 
US$ ajustado pela 
inflapao - base 2000) 
(Banco Mundial) 

1,000 

,825 

Anos de escolaridade por 
pessoas com mais de 25 
anos de vida no ano 2 
(IHME) 

1,000 

,563 


Extraction Method: Principal Component 
Analysis. 


d) 


Podemos verificar que ocorreram reduces pouco expressivas nas comunalidades de todas as varia- 
veis do primeiro para o segundo ano. 


ANO 1 

Component Score Coefficient Matrix 



Component 


1 

Corruption Perception 

Index no ano 1 

(Transparencia 

Internacional) 

,348 

Assassinatos a cada 
100.000 habitantes no 
ano 1 (OMS, UNODC e 
GIMD) 

-,237 

PIB/capita no ano 1 (em 
US$ ajustado pela 
inflapao - base 2000) 
(Banco Mundial) 

,352 

Anos de escolaridade por 
pessoas com mais de 25 
anos de vida no ano 1 
(IHME) 

,292 


Extraction Method: Principal 
Component Analysis. 
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ANO 2 

Component Score Coefficient Matrix 



Component 


1 

Corruption Perception 
Indexno ano 2 
(Transparencia 
Internacional) 

,350 

Assassinatos a cada 
100.000 habitantes no 
ano 2 (OMS, UNODC e 
GIMD) 

-,237 

PIB/capita no ano 2 (em 

US$ ajustado pela 
inflapao - base 2000) 
(Banco Mundial) 

,354 

Anos de escolaridade por 
pessoas com mais de 25 
anos de vida no ano 2 
(IHME) 

,292 


Extraction Method: Principal 
Component Analysis. 

A expressao do fator extraido em cada ano, em fun^ao das variaveis padronizadas, e: 

Ano 1: 

Fj = 0,348.Zcpz7 z - -0,237 .Zviolencialj + 0,352.. Zpib_capita+ 0,292.Zescollj 

Ano 2: 

F f = 0,350.Zcpi2 t -0,231 .Zviolencia2j + 0,354.Zpib _capita2j +0,292.Zescol2j 


Ainda que tenham ocorrido pequenas altera^oes nos scores fatoriais de um ano para o outro, esse fato 
refor^a a importancia de se reaplicar a tecnica para a obten^ao de fatores com scores mais precisos e 
atualizados, principalmente quando utilizados para a cria^ao de indicadores e rankings. 


Ano 1 

Ano 2 

pais 

indicador 

ranking 

pais 

indicador 

ranking 

Switzerland 

1,6923 

1 

Norway 

1,6885 

1 

Norway 

1,6794 

2 

Switzerland 

1,6594 

2 

Denmark 

1,4327 

3 

Sweden 

1,4388 

3 

Sweden 

1,4040 

4 

Denmark 

1,4225 

4 

Japan 

1,3806 

5 

Japan 

1,3848 

5 

United States 

1,3723 

6 

Canada 

1,3844 

6 

Canada 

1,3430 

7 

United States 

1,3026 

7 

United Kingdom 

1,1560 

8 

United Kingdom 

1,1321 

8 

Netherlands 

1,1086 

9 

Netherlands 

1,1007 

9 

Australia 

1,0607 

10 

Australia 

1,0660 

10 

Germany 

1,0297 

11 

Germany 

1,0401 

11 

Austria 

0,9865 

12 

Austria 

0,9903 

12 

Ireland 

0,9439 

13 

Ireland 

0,9411 

13 

New Zealand 

0,9269 

14 

Singapore 

0,9184 

14 

Singapore 

0,8781 

15 

New Zealand 

0,9063 

15 

Belgium 

0,8175 

16 

Belgium 

0,8265 

16 

Israel 

0,6322 

17 

Israel 

0,6444 

17 

France 

0,5545 

18 

France 

0,5448 

18 

Cyprus 

0,5099 

19 

Cyprus 

0,4606 

19 

United Arab Emirates 

0,3157 

20 

United Arab Emirates 

0,2849 

20 

Czech Rep. 

0,2244 

21 

Czech Rep. 

0,1857 

21 
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Ano 1 

Ano 2 

pais 

indicador 

ranking 

pais 

indicador 

ranking 

Italy 

0,0859 

22 

Poland 

0,0868 

22 

Poland 

0,0373 

23 

Spain 

0,0334 

23 

Spain 

0,0303 

24 

Chile 

0,0170 

24 

Chile 

-0,0517 

25 

Italy 

0,0064 

25 

Greece 

-0,1432 

26 

Kuwait 

-0,1462 

26 

Kuwait 

-0,2276 

27 

Greece 

-0,2247 

27 

Portugal 

-0,2980 

28 

Portugal 

-0,2794 

28 

Romania 

-0,3028 

29 

Romania 

-0,3150 

29 

Oman 

-0,4742 

30 

Saudi Arabia 

-0,4321 

30 

Saudi Arabia 

-0,5111 

31 

Oman 

-0,5034 

31 

Serbia 

-0,5407 

32 

Argentina 

-0,5342 

32 

Argentina 

-0,5556 

33 

Serbia 

-0,5544 

33 

Turkey 

-0,6476 

34 

Malaysia 

-0,6098 

34 

Ukraine 

-0,7109 

35 

Turkey 

-0,6401 

35 

Kazakhstan 

-0,7423 

36 

Ukraine 

-0,6807 

36 

Malaysia 

-0,7459 

37 

Kazakhstan 

-0,6970 

37 

Lebanon 

-0,7966 

38 

Lebanon 

-0,8060 

38 

Russia 

-0,8534 

39 

Russia 

-0,8513 

39 

Mexico 

-0,8803 

40 

China 

-0,8982 

40 

China 

-0,8840 

41 

Mexico 

-0,9323 

41 

Egypt 

-0,9792 

42 

Egypt 

-0,9485 

42 

Thailand 

-1,0632 

43 

Thailand 

-1,0800 

43 

Indonesia 

-1,2245 

44 

Indonesia 

-1,2431 

44 

India 

-1,2272 

45 

India 

-1,2533 

45 

Brazil 

-1,3294 

46 

Brazil 

-1,3468 

46 

Philippines 

-1,3466 

47 

Philippines 

-1,3885 

47 

Venezuela 

-1,3916 

48 

Venezuela 

-1,4149 

48 

South Africa 

-1,8215 

49 

Colombia 

-1,7697 

49 

Colombia 

-1,8534 

50 

South Africa 

-1,9173 

50 


Do primeiro para o segundo ano, houve algumas altera^oes nas posi^oes relativas dos paises no 
ranking. 


3) a) 

Correlation Matrix 



Perceppao 
sobre o 
sortimento de 
produtos (0 a 
10) 

Perceppao 
sobre a 
qualidade e 
rapidezna 
reposipao 
dos produtos 
(0 a 10) 

Perceppao 
sobre o layout 
da loja (0 a 

10) 

Perceppao 
sobre 
conforto 
termico, 
acustico e 
visual na loja 
(0 a 10) 

Perceppao 
sobre a 
limpeza geral 
da loja (0 a 

10) 

Perceppao 
sobre a 
qualidade do 
atendimento 
prestado (0 a 
10) 

Perceppao 
sobre o nivel 
de prepos 
praticados 
em relapao a 
concorrencia 
(0 a 10) 

Perceppao 
sobre polftica 
de descontos 
(OalO) 

Correlation Perceppao sobre o 

sortimento de produtos {0 
a 10) 

1,000 

,753 

,898 

,733 

,640 

,193 

,084 

,053 

Perceppao sobre a 
qualidade e rapidezna 
reposipao dos produtos 
(0 a 10) 

,753 

1,000 

,429 

,633 

,548 

,208 

-,449 

-.367 

Perceppao sobre o layout 
da loja (0 a 10) 

,898 

,429 

1,000 

,641 

,567 

,142 

,413 

,318 

Perceppao sobre conforto 
termico, acustico e visual 
na loja (0 a 10) 

,733 

,633 

,641 

1,000 

,864 

,227 

,235 

,174 

Perceppao sobre a 
limpeza geral da loja (0 a 
10) 

,640 

,548 

,567 

,864 

1,000 

,194 

,220 

,173 

Perceppao sobre a 
qualidade do 
atendimento prestado (0 
a 10) 

,193 

,208 

,142 

,227 

,194 

1,000 

,137 

,113 

Perceppao sobre o m'vel 
de prepos praticados em 
relapao a concorrencia (0 
a 10) 

,084 

-.449 

,413 

,235 

,220 

,137 

1,000 

,906 

Perceppao sobre polftica 
de descontos (0 a 10) 

,053 

-,367 

,318 

,174 

,173 

,113 

,906 

1,000 


Sim. Com base na magnitude de alguns coeficientes de correlagao de Pearson, e possivel identificar 
um primeiro indicio de que a analise fatorial podera agrupar as variaveis em fatores. 
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b) 


KMO and Bartlett's Test 


Kaiser-Meyer-Olkin Measure of Sampling Adequacy. 

,610 

Bartlett's Test of Approx Chi-Square 

13752,938 

Sphericity 

df 

28 

Sig. 

,000 


Sim. Por meio do resultado da estatistica J? Bardett , e possivel rejeitar, ao nivel de significance de 5% e 
com base nas hipoteses do teste de esfericidade de Bartlett, que a matriz de correlates seja estatis- 
ticamente igual a matriz identidade de mesma dimensao, visto que ^ ardett — 13.752,938 ( Sig . ^ art]ett 
< 0,05 para 28 graus de liberdade). Portanto, a analise fatorial por componentes principais pode ser 
considerada apropriada. 


c) 


Total Variance Explained 


Component 

Initial Eigenvalues 

Extraction Sums of Squared Loadings | 

Total 

% of Variance 

Cumulative % 

Total 

% of Variance 

Cumulative % 

1 

3,825 

47,812 

47,812 

3,825 

47,812 

47,812 

2 

2,254 

28,174 

75,986 

2,254 

28,174 

75,986 

3 

,944 

11,794 

87,780 




4 

,597 

7,458 

95,238 




5 

,214 

2,679 

97,917 




6 

,126 

1,570 

99,486 




7 

,025 

,313 

99,799 




8 

,016 

,201 

100,000 





Extraction Method: Principal Component Analysis. 


Considerando-se o criterio da raiz latente, sao extraidos dois fatores, com os respectivos autovalores: 

Fator 1: 3,825 
Fator 2: 2,254 

O percentual de variancia compartilhada por todas as variaveis para a composi^ao de cada fator e: 

Fator 1:47,812% 

Fator 2: 28,174% 

Logo, o percentual total de variancia compartilhada por todas as variaveis para a composi^ao dos 
dois fatores e igual a 75,986%. 

d) O percentual total de variancia perdida de todas as variaveis para a extra^ao desses dois fatores e: 

1 - 0,75986 = 0,24014 (24,014%) 
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e) 


Component Matrix 3 



Component | 


1 

2 

Percepgao sobre o 
sortimento de produtos (0 
a 10) 

,918 

-,174 

Percepgao sobre a 
qualidade e rapidezna 
reposigao dos produtos 
(0 a 10) 

,692 

-,660 

Percepgao sobre o layout 
da loja (0 a 10) 

,855 

,185 

Percepgao sobre conforto 
termico, acustico e visual 
na loja (0 a 10) 

,909 

-,029 

Percepgao sobre a 
limpeza geral da loja (0 a 
10) 

,849 

-,010 

Percepgao sobre a 
qualidade do 
atendimento prestado (0 
a 10) 

,311 

,065 

Percepgao sobre o nivel 
de pregos praticados em 
relagao a concorrencia (0 
a 10) 

,274 

,950 

Percepgao sobre politica 
de descontos (0 a 10) 

,232 

,920 


Extraction Method: Principal Component 
Analysis. 


a. 2 components extracted. 


Communalities 



Initial 

Extraction 

Percepgao sobre o 
sortimento de produtos (0 
a 10) 

1,000 

,873 

Percepgao sobre a 
qualidade e rapidezna 
reposigao dos produtos 
(0 a 10) 

1,000 

,914 

Percepgao sobre o layout 
da loja (0 a 10) 

1,000 

,766 

Percepgao sobre conforto 
termico, acustico e visual 
na loja (0 a 10) 

1,000 

,827 

Percepgao sobre a 
limpeza geral da loja (0 a 
10) 

1,000 

,721 

Percepgao sobre a 
qualidade do 
atendimento prestado (0 
a 10) 

1,000 

,101 

Percepgao sobre o nivel 
de pregos praticados em 
relagao a concorrencia (0 
a 10) 

1,000 

,978 

Percepgao sobre politica 
de descontos (0 a 10) 

1,000 

,900 


Extraction Method: Principal Component 
Analysis. 
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Note que as cargas e a comunalidade da variavel atendimento sao consideravelmente baixas, o que 
pode demonstrar a necessidade de extrapao de um terceiro fator, descaracterizando o criterio da 
raiz latente. 


Component Matrix 3 



Component j 


1 

2 

3 

Perceppao sobre o 
sortimento de produtos (0 
a 10) 

,918 

-,174 

-,119 

Perceppao sobre a 
qualidade e rapidezna 
repos ipao dos produtos 
(0 a 10) 

,692 

-,660 

,051 

Perceppao sobre o layout 
da loja (0 a 10) 

,855 

,185 

-,196 

Perceppao sobre conforto 
termico, acustico e visual 
na loja (0 a 10) 

,909 

-,029 

-,021 

Perceppao sobre a 
limpeza geral da loja (0 a 
10) 

,849 

-,010 

-.033 

Perceppao sobre a 
qualidade do 
atendimento prestado (0 
a 10) 

,311 

,065 

,942 

Perceppao sobre o nivel 
de prepos praticados em 
relapao a concorrencia (0 
a 10) 

,274 

,950 

-,011 

Perceppao sobre politica 
de descontos (0 a 10) 

,232 

,920 

-,003 


Extraction Method: Principal Component Analysis, 
a. 3 components extracted. 


Communalities 



Initial 

Extraction 

Perceppao sobre o 
sortimento de produtos (0 
a 10) 

1,000 

,887 

Perceppao sobre a 
qualidade e rapidezna 
repos ipao dos produtos 
(0 a 10) 

1,000 

,917 

Perceppao sobre o layout 
da loja (0 a 10) 

1,000 

,804 

Perceppao sobre conforto 
termico, acustico e visual 
na loja (0 a 10) 

1,000 

,828 

Perceppao sobre a 
limpeza geral da loja (0 a 
10) 

1,000 

,722 

Perceppao sobre a 
qualidade do 
atendimento prestado (0 
a 10) 

1,000 

,987 

Perceppao sobre o nivel 
de prepos praticados em 
relapao a concorrencia (0 
a 10) 

1,000 

,978 

Perceppao sobre politica 
de descontos (0 a 10) 

1,000 

,900 


Extraction Method: Principal Component 
Analysis. 
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Sim, e possivel confirmar o constructo do questionario proposto pelo gerente-geral da loja, visto 
que as variaveis sortimento , reposigao , layout , conforto e limpeza apresentam maior correlapao com um 
fator especifico, as variaveis prego e desconto, com outro fator, e, por fim, a variavel atendimento , com 
um terceiro fator. 

A decisao de extrapao de tres fatores, em detrimento da extrapao com base no criterio da raiz la- 
tente, aumenta as comunalidades das variaveis, com destaque para a variavel atendimento, agora cor- 
relacionada mais fortemente com o terceiro fator. 


Rotated Component Matrix 3 



Component j 


1 

2 

3 

Perceppao sobre o 
sortimento de produtos (0 
a 10) 

,940 

-,038 

,044 

Perceppao sobre a 
qualidade e rapidezna 
reposipao dos produtos 
(0 a 10) 

,761 

-,558 

,161 

Perceppao sobre o layout 
da loja (0 a 10) 

,840 

,311 

-,036 

Perceppao sobre conforto 
termico, acustico e visual 
na loja (0 a 10) 

,893 

,099 

,142 

Perceppao sobre a 
limpeza geral da loja (0 a 
10) 

,834 

,110 

,120 

Perceppao sobre a 
qualidade do 
atendimento prestado (0 
a 10) 

,128 

,065 

,983 

Perceppao sobre o nivel 
de prepos praticados em 
relapao a concorrencia (0 
a 10) 

,130 

,979 

,057 

Perceppao sobre politica 
de descontos (0 a 10) 

,092 

,943 

,056 


Extraction Method: Principal Component Analysis. 
Rotation Method: Varimax with Kaiser Normalization. 


a. Rotation converged in 4 iterations. 

A rotapao Varimax redistribui as cargas das variaveis em cada fator, o que facilita a confirmapao do 
constructo proposto pelo gerente-geral da loja. 


g) 

h) 




omponent2 Component 2 


Resolugao dos Exercicios 


Component Plot in Rotated Space 



Component Plot in Rotated Space 
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Capitulo 11 


1) a) 


percepgao sobre a qualidade do atendimento prestado pelo estabelecimento * percepgao sobre o nivel de pregos 
praticados em relagao a concorrencia Crosstabulation 


Count 




percepgao sobre o nivel de pregos praticados em relagao a concorrencia 




pessimo 

ruim 

regular 

bom 

otimo 

Total 

percepgao sobre a 
qualidade do 

pessimo 

30 

60 

60 

0 

0 

150 

atendimento prestado 

ruim 

60 

150 

60 

30 

0 

300 

pelo estabelecimento 

regular 

30 

360 

270 

60 

30 

750 


bom 

60 

540 

540 

210 

180 

1530 


otimo 

0 

60 

60 

90 

60 

270 

Total 


180 

1170 

990 

390 

270 

3000 


b) 


percepgao sobre a qualidade do atendimento prestado pelo estabelecimento * percepgao sobre o nivel de pregos 
praticados em relagao a concorrencia Crosstabulation 


Expected Count 




percepgao sobre o nivel de pregos praticados em relagao a concorrencia 




pessimo 

ruim 

regular 

bom 

otimo 

Total 

percepgao sobre a 
qualidade do 

pessimo 

9,0 

58,5 

49,5 

19,5 

13,5 

150,0 

atendimento prestado 

ruim 

18,0 

117,0 

99,0 

39,0 

27,0 

300,0 

pelo estabelecimento 

regular 

45,0 

292,5 

247,5 

97,5 

67,5 

750,0 


bom 

91,8 

596,7 

504,9 

198,9 

137,7 

1530,0 


otimo 

16,2 

105,3 

89,1 

35,1 

24,3 

270,0 

Total 


180,0 

1170,0 

990,0 

390,0 

270,0 

3000,0 


Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

509,859 a 

16 

,000 

Likelihood Ratio 

502,756 

16 

,000 

Linear-by-Linear 

Association 

321,266 

1 

,000 

N ofValid Cases 

3000 




a. 0 cells (,0%) have expected count less than 5. The minimum 
expected count is 9,00. 


Como o valor-P (Asymp. Sig.) da estatistica $ e consideravelmente menor que 0,05 (i valor-P 
= 0,000), podemos, para (5 - 1) x (5 - 1) = 16 graus de liberdade, rejeitar a hipotese nula de que 
as duas variaveis categoricas se associam de forma aleatoria, ou seja, existe associa^ao estatisticamen- 
te significante, ao nivel de significancia de 5%, entre a percepgao dos clientes sobre a qualidade do 
atendimento prestado e a percepgao sobre o nivel de pregos praticados em relagao a concorrencia. 

percepgao sobre a qualidade do atendimento prestado pelo estabelecimento * percepgao sobre o nivel de 
pregos praticados em relagao a concorrencia Crosstabuiation 


Adjusted Residual 




percepgao sobre o nivel de pregos praticados em relagao a concorrencia | 



pessimo 

ruim 

regular 

bom 

otimo 

percepgao sobre a 

pessimo 

j 7,4 

,3 

1,9 

-4,9 

-4,0 

qualidade do 
atendimento prestado 

ruim 



-5,0 

-1,6 

-5,7 

pelo estabelecimento 

regular 

-2,7 

"■ ., S-, *rL 

| 2 , 0 * 

-4,7 

-5,5 


bom 

-4,9 

-4,2 

2,7 x 

1,2 

■.'• 5,4 


otimo 

-4,4 

-5,9 

-3,9 

lilMl 

,''. 8,0 







Resolugao dos Exercicios 1073 


As associates entre os pares de categorias estao em destaque na tabela de residuos padronizados, 
visto que os valores positivos superiores a 1,96 correspondem ao excesso de ocorrencias em cada 
celula, ao nivel de significancia de 5%. E possivel afirmarmos que existe associa^ao logica entre as 
categorias consideradas negativas (e positivas) de cada uma das variaveis. 


Summary 







Proportion of Inertia 

Confidence Singular Value | 









Correlation 

Dimension 

Singular 

Value 

Inertia 

Chi Square 

Sig. 

Accounted for 

Cumulative 

Standard 

Deviation 

2 

1 

,354 

,1256 



,739 

,739 

,016 

,502 

2 

,188 

,0352 



,207 

,946 

,020 


3 

,094 

,0089 



,052 

,999 



4 

,016 

,0003 



,001 

1,000 



Total 


,1700 

509,859 

,000 a 

1,000 

1,000 




a. 16 degrees of freedom 


Temos, para cada dimensao, os seguintes valores das inercias principais parciais: 

A? =0,1256 
4 2 =0,0352 
/I 3 2 =0,0089 
X] =0,0003 

e, portanto, a inercia principal total e igual a 0,1700. As quatro dimensoes explicam, respectivamen- 
te, 73,9% (0,1256 / 0,1700), 20,7% (0,0352 / 0,1700), 5,2% (0,0089 / 0,1700) e 0,1% (0,0003 / 
0,1700) da inercia principal total. 


Overview Row Points 3 


perceppao sobre a 
qualidade do 
atendimento prestado 
pelo estabelecimento 


Score in Dimension 


Contribution 





Of Point to Inertia of Dimension 

Of Dimension to Inertia of Point | 

Mass 

1 

2 

Inertia 

1 

2 

1 

2 

Total 

pessimo 

,050 

-1,155 

,265 

,028 

,188 

,019 

,842 

,023 

,865 

ruim 

,100 

-,990 

,888 

,051 

,277 

,421 

,687 

,293 

,980 

regular 

,250 

-,274 

-.464 

,019 

,053 

,288 

,344 

,524 

,868 

bom 

,510 

,216 

-,099 

,011 

,067 

,027 

,779 

,087 

,865 

otimo 

,090 

1,279 

,716 

,061 

,415 

,246 

,852 

,142 

,994 

Active Total 

1,000 



,170 

1,000 

1,000 





a. Symmetrical normalization 


Overview Column Points 3 


perceppao sobre 0 nivel 
de prepos praticados em 
relapao a concorrencia 

Mass 

Score in Dimension 

Inertia 

Contribution | 

1 

2 

Of Point to Inertia of Dimension 

Of Dimension to Inertia of Point J 

1 

2 

1 

2 

Total 

pessimo 

,060 

-1,400 

1,226 

,060 

,332 

,481 

,698 

,283 

,981 

ruim 

,390 

-,297 

-,130 

,017 

,097 

,035 

,733 

,074 

,807 

regular 

,330 

-,026 

-.359 

,011 

,001 

,227 

,008 

,757 

,765 

bom 

,130 

,827 

,581 

,041 

,251 

,234 

,771 

,201 

,973 

otimo 

,090 

1,122 

,222 

,042 

,320 

,024 

,950 

,020 

,970 

Active Total 

1,000 



,170 

1,000 

1,000 





a. Symmetrical normalization 
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1,5- 


i,o H 


0,5 H 


CM 


8 0,0 “I 


-0,5 H 


- 1.01 


-1,5- 


pessimo 


-1,5 


pessimo 

O 


1— 
- 1,0 


Row and Column Points 
Symmetrical Normalization 


bom 

▲ 


otimo 

O 


otimo 


bom 


regular 

A 


regular 


—I— 

-0,5 


0,0 

Dimension 1 


i— 
0,5 


percepgao sobre a qualidade do 
O atendimento prestado pelo 
estabelecimento 
percepgao sobre o nivel de 
A pregos praticados em relagao a 
concorrencia 


1,0 


1,5 


g) 


A partir do mapa perceptual, podemos verificar a existencia de associa^ao entre as variaveis atendi¬ 
mento e prego e, mais que isso, a associa^ao logica entre as categorias consideradas negativas (e posi- 
tivas) de cada uma das variaveis. Em outras palavras, uma percepgao negativa sobre a qualidade do 
atendimento prestado pelo estabelecimento varejista pode influenciar a forma^ao de uma imagem 
negativa de pregos e vice-versa. 


CA dimension projection plot 


O 

o 

CO 


regular O 
bom Q 


ruimO 

6timoQ 

p§ssimo6 
bom 6 
regularO 


Dimensions 


O atendimento 


symmetric normalization 



Dimensions 


pre$o 


A partir do grafico de proje^ao das coordenadas nas dimensoes gerado no Stata, podemos verificar 
que existe logica na ordena^ao dos pontos referentes as categorias das duas variaveis qualitativas or¬ 
dinal para a primeira dimensao. 




Resolugao dos Exercicios 1075 


Frequencias Absolutas Esperadas 


Classifica^ao do indice de 
colesterol LDL (mg/dL) 

Atividades fisicas semanais (numero de vezes) 

0 

1 

2 

3 

4 

5 

Muito elevado 

14,9 

84,8 

202,5 

198,7 

100,2 

33,0 

Elevado 

11,1 

63,4 

151,4 

148,5 

74,9 

24,7 

Limitrofe 

10,2 

58,3 

139,3 

136,6 

68,9 

22,7 

Subotimo 

10,6 

60,7 

145,0 

142,3 

71,7 

23,6 

Otimo 

7,2 

40,9 

97,8 

95,9 

48,3 

15,9 


Residuos 


Classifica 9 ao do indice de 
colesterol LDL (mg/dL) 

Atividades fisicas semanais (numero de vezes) 

0 

1 

2 

3 

4 

5 

Muito elevado 

17,1 

73,2 

61,5 

-58,7 

-60,2 

-33,0 

Elevado 

10,9 

44,6 

26,6 

-40,5 

-16,9 

-24,7 

Limitrofe 

-10,2 

-32,3 

-41,3 

53,4 

17,1 

13,3 

Subotimo 

-10,6 

-44,7 

-31,0 

23,7 

32,3 

30,4 

Otimo 

-7,2 

-40,9 

-15,8 

22,1 

27,7 

14,1 


t 


Classifica 9 ao do indice de 
colesterol LDL (mg/dL) 

Atividades fisicas semanais (numero de vezes) 

0 

1 

2 

3 

4 

5 

Muito elevado 

19,6 

63,2 

18,7 

17,3 

36,2 

33,0 

Elevado 

10,7 

31,4 

4,7 

11,0 

3,8 

24,7 

Limitrofe 

10,2 

17,9 

12,2 

20,9 

4,2 

7,8 

Subotimo 

10,6 

32,9 

6,6 

3,9 

14,6 

39,2 

Otimo 

7,2 

40,9 

2,6 

5,1 

15,9 

12,5 


valor total da estatistica X = 539,4 

Sim. Para (5 — 1) x (6 — 1) = 20 graus de liberdade, temos, por meio daTabela D do apendice do 
livro, que ^ = 31,410 (jf critico para 20 graus de liberdade e para o nivel de significancia de 5%). 
Dessa forma, como o calculado — 539,4 > = 31,410, podemos rejeitar a hipotese nula 

de que as duas variaveis se associam de forma aleatoria, ou seja, existe associa^ao estatisticamente 
significante, ao nivel de significancia de 5%, entre o indice de colesterol LDL e a quantidade semanal 
de atividades esportivas. 


Summary 







Proportion of Inertia 

Confidence Singular Value 









Correlation 

Dimension 

Singular 

Value 

Inertia 

Chi Square 

Sig. 

Accounted for 

Cumulative 

Standard 

Deviation 

2 

1 

,475 

,2255 



,963 

,963 

,015 

,019 

2 

,071 

,0050 



,021 

,985 

,023 


3 

,050 

,0025 



,011 

,995 



4 

,033 

,0011 



,005 

1,000 



Total 


,2341 

539,357 

,000 a 

1,000 

1,000 




a. 20 degrees of freedom 
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Temos, para cada dimensao, os seguintes valores das inercias principals parciais: 

X\ =0,2255 
X\ = 0,0050 
' X\ =0,0025 
X\ =0,0011 


e, portanto, a inercia principal total e igual a 0,2341 .As quatro dimensoes explicam, respectivamente, 
96,3% (0,2255 / 0,2341), 2,1% (0,0050 / 0,2341), 1,1% (0,0025 / 0,2341) e 0,5% (0,0011 / 0,2341) 
da inercia principal total. 


Overview Row Points 8 




Score in Dimension 


Contribution 

classificapao do indice de 
coles terol 





Of Point to Inertia of Dimension 

Of Dimension to Inertia of Point | 

Mass 

1 

2 

Inertia 

1 

2 

1 

2 

Total 

muito elevado: superior a 
189 mg/dL 

,275 

-,787 

-.008 

,082 

,359 

,000 

,991 

,000 

,991 

elevado: de 160 a 189 
mg/dL 

,206 

-.609 

,065 

,037 

,160 

,012 

,966 

,002 

,967 

limitrofe: de 130 a 159 
mg/dL 

,189 

,562 

-,504 

,032 

,126 

,681 

,893 

,107 

1,000 

subotimo: de 100 a 129 
mg/dL 

,197 

,693 

,271 

,047 

,199 

,206 

,962 

,022 

,984 

otimo: inferior a 100 
mg/dL 

,133 

,745 

,232 

,036 

,155 

,101 

,960 

,014 

,974 

Active Total 

1,000 



,234 

1,000 

1,000 





a. Symmetrical normalization 


Overview Column Points 3 


atividades fisicas 
semanais (numero de 
vezes) 

Mass 

Score in Dimension 

Inertia 

Contribution ] 

1 

2 

Of Point to Inertia of Dimension 

Of Dimension to Inertia of Point | 

1 

2 

1 

2 

Total 

0 

,023 

-1,505 

,307 

,025 

,112 

,031 

,993 

,006 

,999 

1 

,134 

-1,124 

-,139 

,081 

,356 

,037 

,991 

,002 

,994 

2 

,319 

-,346 

,192 

,019 

,081 

,167 

,937 

,043 

,979 

3 

,313 

,390 

-.343 

,025 

,100 

,523 

,895 

,103 

,998 

4 

,158 

,638 

,231 

,032 

,135 

,119 

,943 

,018 

,961 

5 

,052 

1,404 

,409 

,051 

,216 

,123 

,961 

,012 

,973 

Active Total 

1,000 



,234 

1,000 

1,000 





a. Symmetrical normalization 


r 

Row and Column Points 

Symmetrical Normalization 


2 - 


^ atividades f isicas semanais 
(numero de vezes) 
q classificapao do ihdice de 
colesterol 

1 “ 



Dimension 2 

o 

I 

5,00 

,00 subotimo: de 100 a 1A 

▲ 2,00 X 

elevado: de 160 a 18 ± 4,00 olimo: inferior a 10 

1,00 O u 

▲ muito elevado: super ^ 

3,00 

▲ 

O 

limitrofe: de 130 a 


-1 - 



V 

! 1 1 1 1 
- 2-1012 

Dimension 1 







Resolugao dos Exercicios 1077 


A partir do mapa perceptual, podemos verificar a existencia de associa^ao entre as variaveis colestclass 
e esporte e, mais que isso, a associa^ao entre suas categorias, visto que pessoas que praticam esporte 
com maior frequencia semanal tendem a apresentar indices mais baixos de colesterol LDL. 


CA dimension projection plot 



O colestclass 



symmetric normalization 

^ j 


A partir do grafico de proje^ao das coordenadas nas dimensoes gerado no Stata, podemos verificar 
que existe logica na ordena^ao dos pontos referentes as categorias das duas variaveis para a primeira 
dimensao. 


Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

5956,436 a 

8 

,000 

Likelihood Ratio 

7584,192 

8 

,000 

Linear-by-Linear 

Association 

4522,903 

1 

,000 

N of Valid Cases 

9000 




a. 0 cells (.0%) have expected count less than 5. The minimum 
expected count is 322,00. 


Sim. Como o valor-P (Asymp. Sig.) da estatistica e consideravelmente menor do que 0,05 
(valor-P X 2 ^ ~ 0,000), podemos afirmar que a evolu^ao anual da popularidade do prefeito nao se da 
de forma aleatoria. 


estou satisfeito com a gestao do atual prefeito! * ano Cross tabulation 

Adjusted Residual 




ano 



20X1 

20X2 

20X3 

estou satisfeito com a 
gestao do atual prefeito! 

Discordo totalmente 

-23,7 

-23,6 

47,3 

Discordo parcialmente 

-35,8 

17,7 

18,1 


Nem concordo, nem 
discordo 

-1,1 

,7 

,4 


Concordo parcialmente 

20,1 

16,4 

-36,6 


Concordo totalmente 

46,5 

-23,3 

-23,3 
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As associates entre os pares de categorias estao em destaque na tabela de residuos padronizados, 
visto que os valores positivos superiores a 1,96 correspondem ao excesso de ocorrencias em cada 
celula, ao nivel de significancia de 5%.Assim,podemos verificar que, enquanto o ano de 20X1 apre- 
senta associa^ao estatisticamente significante com as categorias Concordo totalmente e Concordo parcial- 
mente , o ano de 20X3 apresenta associa^ao estatisticamente significante com as categorias Discordo 
totalmente e Discordo parcialmente. O ano de 20X2 apresenta associa^ao estatisticamente significante 
com as categorias intermediarias da variavel Likert ( Discordo parcialmente e Concordo parcialmente). 


Overview Row Points® 




Score in Dimension 


Contribution 

estou satisfeito com a 
gestao do atual prefeito! 





Of Point to Inertia of Dimension 

Of Dimension to Inertia of Point 

Mass 

1 

2 

Inertia 

1 

2 

1 

2 

Total 

Discordo totalmente 

,111 

-1,455 

-1,111 

,221 

,331 

,343 

,753 

,247 

1,000 

Discordo parcialmente 

,223 

-,727 

,556 

,111 

,166 

,173 

,753 

,247 

1,000 

Nem concordo, nem 
discordo 

,330 

-.015 

,017 

,000 

,000 

,000 

,585 

,415 

1,000 

Concordo parcialmente 

,229 

,753 

,500 

,115 

,183 

,144 

,801 

,199 

1,000 

Concordo totalmente 

,107 

1,452 

-1,125 

,215 

,319 

,341 

,748 

,252 

1,000 

Active Total 

1,000 



,662 

1,000 

1,000 





a. Symmetrical normalization 


Overview Column Points 3 


ano 

Mass 

Score in Dimension 

Inertia 

Contribution | 

1 

2 

Of Point to Inertia of Dimension 

Of Dimension to Inertia of Point | 

1 

2 

1 

2 

Total 

20X1 

,333 

1,030 

-,449 

,277 

,498 

,168 

,903 

,097 

1,000 

20X2 

,333 

,003 

' ,893 

,106 

,000 

,667 

,000 

1,000 

1,000 

20X3 

,333 

-1,033 

-,444 

,278 

,502 

,165 

,906 

,094 

1,000 

Active Total 

1,000 



,662 

1,000 

1,000 





a. Symmetrical normalization 


r 

Row and Column Points 


H 


CM 

C 

o 

'</) 

C 0- 


-11 


Symmetrical Normalization 


20X2 


Discordo parcialment 
O 


Concordo parcialment 
O 


Nem concordo, nemdi 
O 


20X3 


Discordo totalmente 
O 


20X1 

A 


Concordo totalmente 
O 


-2 —r 
-2 


^ ano 

q estou satisfeito com a 
gestao do atual prefeito! 


Dimension 1 


Conforme discutido na resposta do item anterior, podemos afirmar que a popularidade do prefeito 
piora com o decorrer dos anos. 




Resolugao dos Exerdcios 


perfil do investidor * tipo de aplicagao financeira Crosstabulation 


Count 



tipo de aplicagao financeira 

Total 

Poupanga 

CDB 

Agoes 

perfil do investidor Conservador 

8 

4 

5 

17 

Moderado 

5 

16 

4 

25 

Ag res si vo 

2 

20 

36 

58 

Total 

15 

40 

45 

100 


Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

31,764 a 

4 

,000 

Likelihood Ratio 

30,777 

4 

,000 

Linear-by-Linear 

Association 

20,352 

1 

,000 

N of Valid Cases 

100 




a. 2 cells (22,2%) have expected count less than 5. The 
minimum expected count is 2,55. 


perfil do investidor * possui um ou mais filhos? Crosstabulation 

Count 



possui um ou mais filhos? 

Total 

Nao 

Sim 

perfil do investidor Conservador 

6 

11 

17 

Moderado ; 

19 

6 

25 

Ag res si vo 

48 

10 

58 

Total 

73 

27 

100 


Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

15,179 a 

2 

,001 

Likelihood Ratio 

13,699 

2 

,001 

Linear-by-Linear 

Association 

12,575 

1 

,000 

N ofValid Cases 

100 




a. 1 cells (16,7%) have expected count less than 5. The 
minimum expected count is 4,59. 


tipo de aplicagao financeira * possui um ou mais filhos? Crosstabulation 


Count 




possui um ou mais filhos? 




Nao 

Sim 

Total 

tipo de aplicagao 

Poupanga 

0 

15 

15 

financeira 

CDB 

34 

6 

40 


Agoes 

39 

6 

45 

Total 


73 

27 

100 
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Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

47,742 a 

2 

,000 

Likelihood Ratio 

47,494 

2 

,000 

Linear-by-Linear 

Association 

28,799 

1 

,000 

N of Valid Cases 

100 




a. 1 cells (16,7%) have expected countless than 5. The 
minimum expected count is 4,05. 


Com base nos resultados dos testes ^ 2 , podemos verificar que ha associa^ao entre o fato de ter um 
ou mais filhos, o perfil do investidor e o tipo de aplica^ao financeira, ao nivel de significance de 5%, 
e, portanto, todas as variaveis serao incluidas na analise de correspondence multipla. 


b) 


Coordenadas Principals 


Variavel 

Categoria 

Coordenadas da 1- Dimensao 
(Abscissas) 

Coordenadas da 2- Dimensao 
(Ordenadas) 

Perfil do 
Investidor 

Conservador 

x n = 1,474 

y„ = 0,459 

Moderado 

X 12 = 0,112 

7i2 = "1.408 

Agressivo 

x 13 = -0,480 

y 13 = 0,472 

Tipo de 
Aplica^ao 
Financeira 

Poupan^a 

x 21 = 2,105 

y 2 , = 0,077 

CDB 

II 

i 

o 

k> 

y 22 = -0,945 

A^oes 

x 23 = -0,460 

y* = 0,814 

Filhos 

Nao 

x 31 = -0,522 

y 31 = -0,069 

Sim 

X 32 = 1,410 

y 32 = 0,187 


O SPSS apresenta as coordenadas principals de cada categoria com sinais invertidos. 


Coordenadas-Padrao 


Variavel 

Categoria 

Coordenadas da 1- Dimensao 
(Abscissas) 

Coordenadas da 2- Dimensao 
(Ordenadas) 

Perfil do 
Investidor 

Conservador 

JK 

II 

Vj 

y„ = 0,686 

Moderado 

X 12 = 0,136 

y 12 = - 2 > 117 

Agressivo 

x 13 = -0,584 

y 13 = °.7ii 

Tipo de 
Aplica^ao 
Financeira 

Poupan^a 

x 21 = 2,558 

y 21 = o,ii7 

CDB 

x 22 = -0,330 

y 22 =-1,418 

A$oes 

X M = -0,559 

y 23 = 1.221 

Filhos 

Nao 

x 31 = -0,634 

LO 

o 

T—( 

o' 

1 

II 

Sim 

x 32 = 1.714 

y 32 = 0,283 
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^Agoes 

1,0 - 

o A 

Agressiv 

A A 


Conservador 

O 

Sim □ 


D 

Poupangg 

1 1 0,0 
,0 Nao 0,5 0 

0 0,5 

1,0 1,5 

2,0 2,5 3 

-1,0 - 




A 

CDB 

-2,0 - 

Moderado 

O 




Podemos verificar que a categoria Sim (pelo menos um filho) apresenta forte associagao com as 
categorias Conservadov e Poupanga. Por outro lado, a categoria Nao (sem filhos) encontra-se entre as 
categorias Agressivo e Moderado e entre A goes e CDB , porem com maior proximidade de Agressivo e 
Agoes. A partir dessa analise, podemos afirmar que o fato de ter filhos aumenta consideravelmente a 
aversao ao risco. 


percepgao sobre a qualidade geral do servigo prestado * empresa de consultoria 

Crosstabulation 


Count 



empresa de consultoria 

Total 

Gabicks 

Lipehigh 

Montvero 

percepgao sobre a Pessima 

0 

263 

0 

263 

qualidade geral do 





servigo prestado Ruim 

183 

237 

0 

420 

Regular 

150 

0 

0 

150 

Boa 

167 

0 

244 

411 

Otima 

0 

0 

256 

256 

Total 

500 

500 

500 

1500 


Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

1785,553 a 

8 

,000 

Likelihood Ratio 

2165,300 

8 

,000 

Linear-by-Linear 

Association 

307,358 

1 

,000 

N of Valid Cases 

1500 




a. 0 cells (.0%) have expected count less than 5. The minimum 
expected count is 50,00. 


respeitoaos prazos de projeto* empresa de consultoria Crosstabulation 
Count 




empresa de consultoria 




Gabicks 

Lipehigh 

Montvero 

Total 

respeito aos prazos de 
projeto 

Nao 

270 

317 

183 

770 

Sim 

230 

183 

317 

730 

Total 


500 

500 

500 

1500 
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Chi-Square Tests 



Value 

df 

Asymp. Sig. 
(2-sided) 

Pearson Chi-Square 

74,010 a 

2 

,000 

Likelihood Ratio 

74,846 

2 

,000 

Linear-by-Linear 

Association 

30,277 

1 

,000 

N of Valid Cases 

1500 




a. 0 cells (,0%) have expected count less than 5. The minimum 
expected count is 243,33. 


b) 


Com base nos resultados dos testes % 2 , podemos verificar que ha associa^ao entre a variavel empresa 
e as outras variaveis (qualidade e pontualidade ), ao nivel de significance de 5%, e, portanto, todas as 
variaveis serao incluidas na analise de correspondence. 


Coordenadas Principais 


Variavel 

Categoria 

Coordenadas da 1- Dimensao 
(Abscissas) 

Coordenadas da 2- Dimensao 
(Ordenadas) 

Percep<pao sobre 
a Qualidade 
Geral do Servigo 
Prestado 

Pessima 

x n = 1,293 

V 

II 

o 

00 

o 

Ruim 

x 12 = 0,720 

7i2 = -0, 27 1 

Regular 

x 13 = 0,069 

y 13 = -2,032 

Boa 

x 14 = -0,744 

7u = -0,267 

Otima 

x 15 = -1,354 

7,5 = 0,953 

Respeito aos 
Prazos de Projeto 

Nao 

X 21 = 0 > 391 

VI 

to 

II 

1 

o 

o 

U> 

Sim 

x 22 = -0,412 

y 22 = 0,033 

Empresa 

Gabicks 

x 31 = 0,058 

73, = -1,274 

Lipehigh 

X 32 = 1 ’ 141 

y 32 = 0,688 

Montvero 

X 33 = -1-200 

y 3 3 = 0,586 


O SPSS apresenta as coordenadas principais das ordenadas de cada categoria com sinais invertidos. 


Coordenadas-Padrao 


Variavel 

Categoria 

Coordenadas da 1- Dimensao 
(Abscissas) 

Coordenadas da 2- Dimensao 
(Ordenadas) 

Percep^ao sobre 
a Qualidade 
Geral do Servi^o 
Prestado 

Pessima 

x n = 1,592 

y„ = 1,468 

Ruim 

x 12 = 0,886 

y 12 = -0,367 

Regular 

x 13 = 0,087 

y ,3 = -2,760 

Boa 

x 14 = -0,917 

y ,4 = -0,361 

Otima 

x ]5 = -1,667 

y,5 = 1,291 

Respeito aos 
Prazos de Projeto 

Nao 

x 2, = 0,481 

y 2 , = -0,045 

Sim 

x 22 = -0,507 

y 22 = 0,048 

Empresa 

Gabicks 

x 31 = 0,072 

y 31 =-1,730 

Lipehigh 

X 32 = 1,405 

y 32 = 0,935 

Montvero 

X 33 = -1,477 

y 33 = 0,795 
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A partir do grafico de projegao das coordenadas-padrao nas dimensoes gerado no Stata, podemos 
verificar que existe logica na ordena^ao dos pontos referentes as categorias da variavel qualidade pa¬ 
ra a primeira dimensao. 



A partir do mapa perceptual, e possivel afirmar que os executivos possuem uma percep^ao positiva 
sobre a empresa de consultoria Montvero , com rela^ao a qualidade dos services prestados e pontua- 
lidade. O mesmo ja nao pode ser dito sobre a empresa Lipehigh. Por sua vez, com rela^ao a esses 
atributos, a Gabicks encontra-se em posi^ao intermediary na percep^ao dos executivos. 
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e) 


Object Points Labeled by perceppao sobre a qualidade geral do servipo prestado 


2“ 

Regular Regular 

RegularRegular^ e 9 ular 

O ° Regular 

RegularRegular 


CM 

§ i- 

</> 

C 

Bog Boa^im 

Boa Boa B ° a Ruim ^i™ 

O BoaO OR U i m °Ruim 

Boa Boa Ruim pRijim 


E 

2 

o- 

-i- 

B° a . 

Boa Boa Boa Ruim Ruim Ruim 

O O ___ . r> Ruim 

Boa Boa Boa ^ 

Ruim 

OtimaOtima Ressirra 

OtimaOima 0 Otima FfesirrT^""^™ 

Otima G^' 1713 Otima Ffessima 0 , O F&ssima 

Bessima Ffessima 



“ 1 1 1 1 1 1 1 

-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 



Dimension 1 


V 

Variable Principal Normalization. 



Object Points Labeled by empresa de consultoria 


H 


oi 


Gabicks Gabicks 
Gabicks Gabicks 
Gabicks O G Gabicks 

Gabicks Gabicks 


_ .. , Gabicks Gabicks 
Gabicks Gabicks Gabicks 
Gabicks Gabicks Gabjcks Gabicks 
Gabicks O ° O ° Gabicks 

Gabicks Gabicks 


Gabicks Gabicks 
Gabicks 

Morrtvero i^ontvero 

MontveroMontvero QMontvero 

MontVero0 Montvero Montvera 
Montvero 
Montvero 

Montvero Montvero 
Montvero O ° Montvero 
Montvero^° ntvero 


Li pe h ig h Ljpehigh 

Lipehigh 


LipehighO 

Lipehigh 


q Lipehigh 


Lipehigh 


Lipehigh 


Lipehigh Lipehigh 
, . ,. Lipehigh Lipehigh 
Lipehigh 0 o Lipehigh 
Lipehigh Lipehigh 


—I— 
-1,5 


—,— 

- 1,0 


—I 
-0,5 


0,0 0,5 1,0 

Dimension 1 


~r~ 

1,5 


Variable Principal Normalization. 


Sim. E possivel perceber que ha bastante logica nas respostas dos executivos em rela^ao as categorias 
das variaveis qualidade e empresa . 
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Capitulo 12 


y = -3,8563 + 0,3872.X 
R 2 = 0,9250 

Sim ( valor-P t = 0,000 < 0,05). 

9,9595 bilhoes de dolares (deve-se fazer Y = 0 e resolver a equa^ao). 
-3,8563% (deve-se fazer X = 0). 

0,4024% (media) -1,2505% (minima) 2,0554% (maxima). 


Source | 

SS 

df 

MS 


Number of obs 
F ( 2, 49) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 52 

= 11.41 

= 0.0001 
= 0.3177 

= 0.2899 

= 1.9817 

Model | 
Residual | 

89.612845 

192.427734 

2 

49 

44.8064225 

3.9270966 

Total | 

282.040579 

51 

5.53020742 

cpi | 

Coef. 

Std. 

Err. t 

P>|t| 

[95% Conf. 

Interval] 

idade | 

.07005 

.0327711 2.14 

0.038 

.004194 

.135906 

horas | 

-.424531 

.1169233 -3.63 

0.001 

-.6594972 

-.1895648 

_cons | 

15.15894 

4.754379 3.19 

0.002 

5.604657 

24.71322 

11 - 11 


Sim, como o valor-P da estatistica F < 0,05, pode-se afirmar que pelo menos uma das variaveis 
explicativas e estatisticamente significante para explicar o comportamento da variavel cpi , ao nivel 
de significance de 5%. 

Sim, como o valor-P de ambas as estatisticas t < 0,05, pode-se afirmar que seus parametros sao 
estatisticamente diferentes de zero, ao nivel de significance de 5%. Portanto, o procedimento 
Stepwise nao excluiria nenhuma das variaveis explicativas do modelo final. 
cpi. = 15,1589 + 0,0700 Adade. — 0,4245. horas . 

R 2 = 0,3177 

Por meio da analise dos sinais dos coeficientes do modelo final, pode-se afirmar, para esta cross-section , 
que paises com bilionarios apresentando idades medias mais baixas possuem menores indices cpi , ou seja, 
maiores percep^oes de corrup^ao por parte da sociedade. Alem disso, uma quantidade maior de horas 
trabalhadas na semana, em media, tern relagao negativa com a variavel cpi, ou seja, paises com maiores 
percepcoes de corrup^ao (cpi' s mais baixos) apresentam quantidades maiores de carga de trabalho 
semanal. E importante mencionar que os paises com menores cpi' s sao aqueles considerados emergentes. 



Shapiro-Francia W’ test for 

normal data ,j 

Variable | 

Obs 

W< V' 

z 

Prob>z 

res | 

52 

0.96864 1.677 

0.994 

0.16021 


Shapiro-Wilk W test for normal data 


Variable | 

Obs 

W V 

z 

Prob>z 

res | 

52 

0.95835 2.020 

1.503 

0.06638 


Por meio do teste de Shapiro-Francia, mais adequado para a dimensao desta amostra, pode-se veri- 
ficar que os residuos apresentam distribui^ao normal, ao nivel de significance de 5%. Chegar-se-ia 
a mesma conclusao caso o teste utilizado tivesse sido o de Shapiro-Wilk. 


Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
Ho: Constant variance 
Variables: fitted values of cpi 

chi2(1) = 0.00 

Prob > chi2 = 0.9862 


Por meio do teste de Breusch-Pagan/Cook-Weisberg, e possivel verificar a existencia de homoce- 
dasticidade no modelo proposto. 
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h) 


Variable | 

VIF 

1/VIF 

horas | 
idade | 

1.06 

1.06 

0.941907 

0.941907 

Mean VIF | 

1.06 



Como o modelo final obtido nao apresenta estatisticas VIF muito elevadas (1 — Tolerance = 0,058), 
pode-se considerar que nao existem problemas de multicolinearidade. 


3 ) 

. tabstat cpi, by(emergente) 

Summary for variables: cpi 

by categories of: emergente 


emergente | mean 


- + _ 


Desenvolvido | 

7.728571 

Emergente | 

4.096774 



Total | 

5.563462 


. reg cpi emergente 


Source 

1 

SS 

df 

MS 


Number of obs 
F ( 1 , 50) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

52 

= 70.62 

= 0.0000 
= 0.5855 

= 0.5772 

= 1.5291 

Model 

Residual 

1 

1 

165.12804 

116.912538 

1 

50 

165.12804 

2.33825076 


Total 

1 

282.040579 

51 

5.53020742 


cpi 

1 

Coef. 

Std. 

Err. t 

P>|t| 

[95% Conf. 

Interval] 

emergente 

cons 

1 

1 

-3.631797 

7.728571 

.4321721 -8.40 
.3336844 23.16 

0.000 

0.000 

-4.49984 

7.058347 

-2.763754 

8.398796 


a) A diferen^a entre o valor medio do indice cpi dos paises emergentes e o dos paises desenvolvidos e de 
-3,6318, ou seja, enquanto os paises emergentes tern cpi medio de 4,0968, os paises desenvolvidos tern 
cpi medio de 7,7286 (sendo este exatamente o valor do intercepto da regressao de cpi em fun^ao da 
variavel emergente, ja que a dummy emergente para os paises desenvolvidos = 0). 

Sim, esta diferen^a e estatisticamente significante, ao mvel de significancia de 5%, ja que o valor-P da 
estatistica t < 0,05 para a variavel emergente . 


b) i- 

Ip = 0.2138 >= 0.1000 removing idade 


Source | 

SS 

df 

MS 

Number of 

obs 

49) 

= 

52 

38.42 

0.0000 

0.6106 

0.5947 

1.4971 

Model | 
Residual | 

172.211746 

109.828832 

2 

49 

86.1058731 

2.24140474 

Prob > F 
R-squared 

= 

Total | 

282.040579 

51 

5.53020742 

Ad} R—sque 
Root MSE 


= 


cpi f 

Coef. 

Std. Err. 

t 

P>|tj 

[90% Conf. 

Interval] 

emergente | 
horas | 
__cons | 

-3.223845 

-.1733756 

13.17009 

.4813487 

.0975254 

3.078291 

-6.70 

-1.78 

4.28 

0.000 

0.082 

0.000 

-4.030851 

-.336882 

8.009177 

-2.41684 

-.0098693 

18.331 


cpi t = 13,1701 — 0, 1734.horns t — 3, 2238.emergente t 

c) cjpi = 13,1701 - 0,1734. (37) - 3,2238. (1) = 3,5305 

d) <Frm„ = 8,0092-0,3369. (37)-4,0309.(1) = -8,4870 
<Fmax =18,33i0-0,0099.(37) -2,4168.(1) = 15,5479 

Obviamente, o intervalo de con Fiat) ca e bastante amplo e sem sentido. Isso se deve ao fato de o va- 
lor do R 2 nao ser tao elevado. 
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p = 0.2079 >= 0 

Source | 

1000 removing idade 

SS df MS 


Number of obs 
F ( 2, 49) 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 52 

= 38.58 

= 0.0000 
= 0.6116 
= 0.5958 

= 1.4951 

Model | 
Residual | 

172.502548 

109.538031 

2 86.2512738 

49 2.23547002 

Total | 

282.040579 

51 5.53020742 

cpi | 

Coef. 

Std. Err. t 

P>|t| 

[90% Conf. 

Interval] 

emergente | 

-3.213296 

.4813054 -6.68 

0.000 

-4.020229 

-2.406363 

lnhoras | 

-5.713824 

3.145899 -1.82 

0.075 

-10.98808 

-.4395641 

_cons | 

27.40486 

10.83822 2.53 

0.015 

9.234032 

45.57568 

11 11 


qpi. = 27,4049 -5,7138.1n(/zoras.) — 3, 2133.emergente i 

Como R 2 ajustado e levemente maior no modelo com forma funcional nao linear (forma funcional 
logaritmica para a variavel horns) do que no modelo com forma funcional linear, opta-se pelo 
modelo nao linear estimado no item (e). Como, em ambos os casos, nao ha mudan^a na quantidade 
de variaveis nem no tamanho da amostra utilizada, tal analise poderia ser feita diretamente com base 
nos valores do R 2 . 


Source | 

SS 

df 

MS 


Number of obs 
F( 2, 45) 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 48 

= 14.02 

= 0.0000 
= 0.3839 

= 0.3565 

= 14.388 

Model | 
Residual | 

5804.9541 

9315.71257 

2 

45 

2902.47705 

207.015835 

Total | 

15120.6667 

47 

321.716312 

colesterol | 

Coef. 

Std. 

Err. t 

P>|t| 

[95% Conf. 

Interval] 

imc | 

1.994726 

.5411863 3.69 

0.001 

.9047213 

3.084732 

esporte | 

-5.163452 

2.138796 -2.41 

0.020 

-9.471208 

-.8556968 

_cons | 

136.7161 

13.5579 10.08 

0.000 

109.4091 

164.0231 



colesterolt - 136,7161 + 1,9947 Jmc t -5,1635 .esporte t 

Pode-se verificar que o indice de massa corporea apresenta rela^ao positiva com o indice de 
colesterol LDL, de modo que, a cada aumento de uma unidade no indice, aumenta-se, em media, 
quase 2 mg/dL do colesterol popularmente conhecido como colesterol ruim, ceteris paribus . 
Analogamente, o aumento da frequencia da atividade fisica semanal em uma unidade faz o indice 
de colesterol LDL cair, em media, mais de 5 mg/dL, ceteris paribus. Logo, a manuten^ao de peso, 
ou ate mesmo a sua perda, aliada ao estabelecimento de uma rotina de atividades fisicas semanais, 
pode contribuir para uma vida mais saudavel. 




Como se tern, ao nivel de significance de 5% e para um modelo com 3 parametros e 48 observa¬ 
nces, que 0,938 < d L — 1,45, pode-se afirmar que ha autocorrelanao positiva de primeira ordem 
dos termos de erro. 


Breusch-Godfrey LM test for autocorrelation 


lags(p) | 

chi 2 

df 

Prob > chi2 

1 1 

15.917 

1 

0.0001 

3 | 

20.979 

3 

0.0001 

4 1 

21.801 

4 

0.0002 

12 | 

27.705 

12 

0.0061 


HO: no 

serial correlation 



Por meio da analise do teste de Breusch-Godfrey, pode-se perceber que, alem da auto cor rela£ao de 
primeira ordem dos termos de erro, ha tambem problemas de autocorrela£ao dos residuos de ordem 
3, 4 e 12, o que demonstra a sazonalidade existente no comportamento do executivo em rela^ao a 
sua massa corporea e ao seu engajamento em atividades esportivas. 
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Capitulo 13 


|| Logistic regression 



Number 

of obs = 

2000 





LR chi2(3) 

331.60 





Prob > 

chi2 = 

0.0000 

Log likelihood 

= -976.10697 



Pseudo 

R2 

0.1452 

default | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

idade | 

-.0243293 

.0069651 

-3.49 

0.000 

-.0379806 

-.010678 

sexo | 

.7414965 

.1135097 

6.53 

0.000 

.5190216 

.9639714 

renda | 

-.000256 

.000017 

-15.03 

0.000 

-.0002894 

-.0002226 

_cons | 

2.975073 

.2623242 

11.34 

0.000 

2.460927 

3.489219 

11 ■ 


a) Sim. Como o valor-P da estatistica X 2 < 0,05, pode-se afirmar que pelo menos uma das variaveis 
explicativas e estatisticamente significante para explicar a probabilidade de default , ao nivel de signi¬ 
ficance de 5%. 


b) 


c) 


Sim. Como o valor-P de todas as estatisticas z de Wald < 0,05, pode-se afirmar que seus respectivos 
parametros sao estatisticamente diferentes de zero, ao nivel de significance de 5% e, portanto, ne- 
nhuma variavel explicativa sera excluida do modelo final. 


Pi = 


l + e 


-(2,97507—0,02433. i.dade i +0,74149.sexo i —0,00025. renda { ) 


d) Sim. Como o sinal do parametro estimado para a variavel sexo e positivo, os individuos do sexo 
masculino (dummy = 1) apresentam, em media, maiores probabilidades de default do que os do sexo 
feminino, mantidas as demais condi^oes constantes (a chance de ocorrencia do evento sera multi- 
plicada por um fator maior do que 1). 

e) Nao. As pessoas com mais idade tendem a apresentar, em media, menores probabilidades de d fault, man¬ 
tidas as demais concludes constantes, ja que o sinal do parametro da variavel idade e negativo, ou seja, a 
chance de ocorrencia do evento e multiplicada por um fator menor do que 1 ao se aumentar a idade. 


f) 


g> 


p= 


1 


l+e 


-[2,97507-0,02433.(37)+0,74149.(l)-0,00025.(6.850)] 


= 0,7432 


A probabilidade media estimada de default para este individuo e de 74,32%. 


Logistic regression 

Log likelihood = -976.10697 


default | Odds Ratio Std. Err. z 

- + - 

idade | .9759643 .0067977 -3.49 

sexo | 2.099075 .2382653 6.53 

renda | .999744 .000017 -15.03 


Number of obs = 2000 
LR chi2(3) = 331.60 
Prob > chi2 = 0.0000 
Pseudo R2 = 0.1452 


P>|z| [95% Conf. Interval] 

0.000 .9627316 .9893788 
0.000 1.680383 2.622089 
0.000 .9997106 .9997774 


A chance de ser default ao se aumentar a renda em uma unidade e, em media e mantidas as demais 
condi^oes constantes, multiplicada por um fator de 0,99974 (chance 0,026% menor). 
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1 Logistic model for default 



— 

- True - 



Classified | 

D 

~D | 

Total 





+ 1 

1392 

360 | 

1752 

1 

92 

156 | 

248 





Total 1 

1484 

516 | 

2000 

I Classified + if predicted Pr(D) 

>= .5 


I True D defined as default != 0 



I Sensitivity 


Pr( +| D) 

93.80% 

I Specificity 


Pr( -|~D) 

30.23% 

1 Positive predictive value 

Pr( D | +) 

79.45% 

1 Negative predictive value 

Pr(~D| -) 

62.90% 

False + rate for 

true ~D 

Pr( +|~D) 

69.77% 

False - rate for 

true D 

Pr( -| D) 

6.20% 

False + rate for 

classified + 

Pr(~D| +) 

20.55% 

False - rate for 

classified - 

Pr( D| -) 

37.10% 

|Correctly classified 


77.40% 

I 1 ---.-.-.-..---1 


Enquanto a eficiencia global do modelo e de 77,40%, a sensitividade e de 93,80% e a especificidade 
e de 30,23% (para um cutoff de 0,5). 


Logistic regression 

Number of obs = 

3000 


LR chi2(18) 

2568.44 


Prob > chi2 = 

0.0000 

Log likelihood = -773.56753 

Pseudo R2 = 

0.6241 


fidelidade 

1 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

sexo 

I 

1.76952 

.1974541 

8.96 

0.000 

1.382518 

2.156523 

idade 

1 

1.687039 

.1764541 

9.56 

0.000 

1.341195 

2.032882 

Iatendime~2 

1 

1.680792 

.3358636 

5.00 

0.000 

1.022511 

2.339072 

Iatendime~3 

1 

1.817219 

.3415135 

5.32 

0.000 

1.147865 

2.486574 

Iatendime~4 

1 

3.316774 

.3113904 

10.65 

0.000 

2.70646 

3.927088 

Iatendime~5 

1 

4.311921 

.4322055 

9.98 

0.000 

3.464814 

5.159028 

Isortimen~2 

1 

1.850253 

.396107 

4.67 

0.000 

1.073898 

2.626609 

Isortimen~3 

1 

2.051122 

.3210165 

6.39 

0.000 

1.421942 

2.680303 

_Isortimen~4 

1 

3.328971 

.3204694 

10.39 

0.000 

2.700863 

3.95708 

_Isortimen~5 

1 

5.936524 

.4023464 

14.75 

0.000 

5.147939 

6.725108 

_Iacessibi~2 

1 

2.347546 

.4464351 

5.26 

0.000 

1.472549 

3.222542 

_Iacessibi~3 

1 

2.922915 

.2809324 

10.40 

0.000 

2.372298 

3.473533 

_Iacessibi~4 

1 

4.29067 

2.122826 

2.02 

0.043 

.1300077 

8.451332 

_Iacessibi~5 

1 

5.36615 

.3763097 

14.26 

0.000 

4.628597 

6.103704 

__Iprego_2 

1 

.5705527 

2.12232 

0.27 

0.788 

-3.589117 

4.730223 

_Iprego_3 

1 

2.921606 

.3902846 

7.49 

0.000 

2.156662 

3.68655 

_Iprego_4 

1 

3.039283 

.4155192 

7.31 

0.000 

2.22488 

3.853686 

_Iprego__5 

1 

3.914173 

.4423414 

8.85 

0.000 

3.0472 

4.781146 

cons 

1 

-68.98657 

6.05468 

-11.39 

0.000 

-80.85352 

-57.11961 


Apenas a categoria ruim da variavel prego nao se mostrou estatisticamente significante, ao nivel de signi- 
ficancia de 5%, para explicar a probabilidade de ocorrencia do evento de interesse, ou seja, nao existem 
diferen^as que alterem a probabilidade de se tornar fiel ao estabelecimento varejista ao se emitir uma 
resposta pessimo ou ruim para a percep^ao de pre^o, mantidas as demais concludes constantes. 


Logistic regression 

Log likelihood = -773.60441 


Number of obs = 

LR chi2(17) 

Prob > chi2 = 

Pseudo R2 = 

3000 

2568.37 

0.0000 

0.6241 

fidelidade 

1 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

sexo 

1 

1.766864 

.1972916 

8.96 

0.000 

1.38018 

2.153549 

idade 

1 

1.688162 

.1764453 

9.57 

0.000 

1.342336 

2.033989 

Iatendime~2 

1 

1.684447 

.3355399 

5.02 

0.000 

1.026801 

2.342093 

Iatendime~3 

1 

1.820497 

.34115 

5.34 

0.000 

1.151855 

2.489139 

Iatendime~4 

1 

3.324228 

.3097111 

10.73 

0.000 

2.717205 

3.931251 

Iatendime~5 

1 

4.325409 

.4283536 

10.10 

0.000 

3.485851 

5.164966 

Isortimen~2 

1 

1.861113 

.3936719 

4.73 

0.000 

1.08953 

2.632696 

Isortimen~3 

1 

2.058345 

.3197707 

6.44 

0.000 

1.431606 

2.685084 

Isortimen~4 

1 

3.33545 

.3195181 

10.44 

0.000 

2.709206 

3.961694 

Isortimen~5 

1 

5.945108 

.4007958 

14.83 

0.000 

5.159563 

6.730654 

Iacessibi~2 

1 

2.350255 

.4464723 

5.26 

0.000 

1.475185 

3.225324 

_Iacessibi~3 

1 

2.920524 

.2809143 

10.40 

0.000 

2.369942 

3.471106 

_Iacessibi~4 

1 

4.84733 

.5034604 

9.63 

0.000 

3.860565 

5.834094 

_Iacessibi-5 

1 

5.362504 

.3760177 

14.26 

0.000 

4.625523 

6.099485 

Iprego 5 

1 

3.909429 

.4423127 

8.84 

0.000 

3.042512 

4.776346 

_Iprego_3 

1 

2.915921 

.390162 

7.47 

0.000 

2.151218 

3.680625 

_Iprego_4 

1 

3.035703 

.4154512 

7.31 

0.000 

2.221434 

3.849972 

_cons 

1 

-69.02982 

6.053554 

-11.40 

0.000 

-80.89457 

-57.16507 

,1 
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O cutoff a partir do qual a especificidade passa a ser levemente superior a sensitividade e igual a 0,57. 


Logistic regression 

Log likelihood = -773.60441 


Number of obs = 

LR chi2(17) 

Prob > chi2 = 

Pseudo R2 = 

3000 

2568.37 

0.0000 

0.6241 

fidelidade 

| Odds Ratio 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

sexo 

1 

5.852473 

1.154644 

8.96 

0.000 

3.975617 

8.615378 

idade 

1 

5.409529 

.9544861 

9.57 

0.000 

3.827974 

7.644516 

Iatendime~2 

1 

5.389469 

1.808382 

5.02 

0.000 

2.792118 

10.40299 

Iatendime~3 

1 

6.174927 

2.106576 

5.34 

0.000 

3.164058 

12.05089 

Iatendime~4 

1 

27.77755 

8.603014 

10.73 

0.000 

15.13796 

50.97068 

Iatendime~5 

1 

75.5964 

32.38199 

10.10 

0.000 

32.6502 

175.0316 

Isortimen~2 

1 

6.43089 

2.531661 

4.73 

0.000 

2.972877 

13.91122 

Isortimen~3 

1 

7.832995 

2.504763 

6.44 

0.000 

4.185415 

14.65943 

Isortimen~4 

1 

28.09102 

8.975587 

10.44 

0.000 

15.01735 

52.54625 

Isortimen~5 

1 

381.8808 

153.0562 

14.83 

0.000 

174.0884 

837.6948 

Iacessibi~2 

1 

10.48824 

4.682709 

5.26 

0.000 

4.371845 

25.16173 

_Iacessibi~3 

1 

18.551 

5.211241 

10.40 

0.000 

10.69677 

32.17229 

_Iacessibi~4 

1 

127.3998 

64.14074 

9.63 

0.000 

47.4922 

341.755 

Iacessibi~5 

1 

213.2583 

80.18891 

14.26 

0.000 

102.0561 

445.6284 

_Ipre<?o_5 

1 

49.87045 

22.05833 

8.84 

0.000 

20.95781 

118.6699 

_Iprego_3 

1 

18.46582 

7.204661 

7.47 

0.000 

8.595321 

39.67118 

_Iprego_4 

1 

20.8156 

8.647867 

7.31 

0.000 

9.220539 

46.99176 

11 . ■ 
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Em media, a chance de se tornar fiel ao estabelecimento e multiplicada por um fator de 5,39 ao se 
mudar a percep^ao de atendimento de pessimo para ruim. Ja de pessimo para regular, esta chance e 
multiplicada por um fator de 6,17. De pessimo para bom, e multiplicada por um fator de 27,78, e, 
por fim, de pessimo para otimo, por um fator de 75,60. Estas respostas somente serao validas se as 
demais condi^oes mantiverem-se constantes. 

Em media, a chance de tornar-se fiel ao estabelecimento e multiplicada por um fator de 6,43 ao se 
mudar a percep^ao de sortimento de pessimo para ruim. Ja de pessimo para regular, esta chance e 
multiplicada por um fator de 7,83. De pessimo para bom, e multiplicada por um fator de 28,09, e, 
por fim, de pessimo para otimo, por um fator de 381,88. 

Ja para a variavel acessibilidade, a chance de tornar-se fiel ao estabelecimento e, em media, multipli¬ 
cada por um fator de 10,49 ao se mudar a percep^ao de pessimo para ruim. Ja de pessimo para re¬ 
gular, esta chance e multiplicada por um fator de 18,55. De pessimo para bom, e multiplicada por 
um fator de 127,40, e, por fim, de pessimo para otimo, por um fator de 213,26. 

E, finalmente, para a variavel prego, a chance de tornar-se fiel ao estabelecimento e, em media, mul¬ 
tiplicada por um fator de 18,47 ao se mudar a percep^ao de pessimo ou de ruim para regular. Ja de 
pessimo ou ruim para bom, esta chance e multiplicada por um fator de 20,82. Por fim, de pessimo ou 
ruim para otimo, a chance de tornar-se fiel ao estabelecimento e multiplicada por um fator de 49,87. 
Estas respostas somente serao validas se as demais condi^oes mantiverem-se constantes em cada caso. 
Com base na analise das chances, se o estabelecimento desejar investir em uma unica variavel per¬ 
ceptual para aumentar a probabilidade de que os consumidores se tornem fieis, de modo que dei- 
xem de ter percep^oes pessimas e passem, com maior frequencia, a apresentar percep^oes otimas 
sobre este quesito, devera investir na variavel sortimento, uma vez que esta variavel e a que apresenta 
a maior odds ratio (381,88). Em outras palavras, a chance de se tornar fiel ao estabelecimento, ao se 
mudar a percep^ao de sortimento de pessimo para otimo, e, em media, multiplicada por um fator 
de 381,88 (38.088% maior), mantidas as demais condi^oes constantes. 


I classificagao do 

indice de | 






colesterol | 

Freq. Percent 

Cum. 

muito elevado: 

superior a 

189 mg/dL | 


634 

27.52 

27.52 

elevado 

: de 160 a 

189 mg/dL | 


474 

20.57 

48.09 | 

limitrofe 

: de 130 a 

159 mg/dL | 


436 

18.92 

67.01 

subotimo 

: de 100 a 

129 mg/dL | 


454 

19.70 

86.72 1 

otimo: 

inferior a 

100 mg/dL | 


306 

13.28 100.00 jj 



Total | 

2, 

304 

100.00 

__J 


II Multinomial logistic regression 


Number of obs = 

2304 





LR chi2(8) = 

744.32 





Prob 

> chi2 = 

0.0000 

Log likelihood 

= -3276.4384 


Pseudo R2 = 

0.1020 

colestquali | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf 

. Interval] 

muito_elev~g | 

(base outcome) 





elevado d~L | 







cigarro | 

-.3074014 

.1299828 

-2.36 

0.018 

-.5621629 

-.0526398 

esporte | 

.1608594 

.0626491 

2.57 

0.010 

.0380695 

.2836492 

_cons | 

-.4165899 

.1694833 

-2.46 

0.014 

-.7487711 

-.0844087 

limitrofe ~L | 







cigarro | 

-.4097082 

.1391027 

-2.95 

0.003 

-.6823445 

-.137072 

esporte | 

1.00892 

.069313 

14.56 

0.000 

.8730689 

1.144771 

_cons | 

-2.622374 

.210574 

-12.45 

0.000 

-3.035091 

-2.209656 

subotimo ~L | 







cigarro | 

-1.406478 

.1402706 

-10.03 

0.000 

-1.681403 

-1.131553 

esporte | 

1.126053 

.0714239 

15.77 

0.000 

.986065 

1.266041 

_cons | 

-2.457194 

.2101974 

-11.69 

0.000 

-2.869173 

-2.045215 

otimo inf~L | 







cigarro | 

-1.668489 

.1602048 

-10.41 

0.000 

-1.982485 

-1.354494 

esporte | 

1.155467 

.0792211 

14.59 

0.000 

1.000196 

1.310737 

_cons | 

-2.856647 

.2389256 

-11.96 

0.000 

-3.324932 

-2.388361 
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Sim. Como o valov-P da estatistica < 0,05, pode-se rejeitar a hipotese nula de que todos os pa- 
rametros (3. m (j — 1,2 \m— 1,2, 3, 4) sejam estatisticamente iguais a zero ao nivel de significancia de 
5%, ou seja, pelo menos uma das variaveis explicativas e estatisticamente significante para compor 
a expressao de probabilidade de ocorrencia de pelo menos uma das classifica^oes propostas para o 
indice de colesterol LDL. 

c) Como todos os parametros sao estatisticamente significantes para todos os logitos (testes z de Wald 
ao nivel de significancia de 5%), as equates finais estimadas para as probabilidades medias de ocor¬ 
rencia das classifica^oes propostas para o indice de colesterol LDL podem ser escritas da seguinte 
forma: 


Probabilidade de um individuo i apresentar um fndice muito elevado de colesterol LDL: 

1 


Pi = 


1 + e 1 


(— 1 0,42— 0,31.cigarrOj+0,16.esporte { ) ^ ^(—2,62—0,41. cigarro i +1,01. esporte { ) 


’** j ^ (—2 ,46—1,41. cigarro i +1,13. esporte { ) ^ ^(-2 ,86-1,67. cigarro i +1,16. esporte { ) 


Probabilidade de um individuo i apresentar um indice elevado de colesterol LDL: 

^ (-0,42—0,31 . cigarro { +0 ,\6.esporte i ) 

Pi ^ j ^(— 0 , 42—0 , 31 . cigarro i +0,16. esporte i ) ^ ^ (—2,62— 0 ,41 . rigano, +1 ,0 1 . esporte i ) 


Probabilidade de um individuo i apresentar um indice limitrofe de colesterol LDL: 

^ (-2,62—0,41 . dgarro i +1,01. esporte i ) 

Pi 


1 + e 


(—0,42—0,31. dgarro i +0,l6.esporte i } ^ ^ (—2,62—0,41 . cigarro i +1,01. esporte { ) 


* j ^(-2,46-1,41. dgarro i +1,13. esportei ) ^ ^(-2,86-1,67 . dgarro i +1,16. esporte { ) 


Probabilidade de um individuo i apresentar um indice subotimo de colesterol LDL: 

^ (—2,46-1,41 . cigarro i +1,13. esporte { ) 

Pi = 


1 + e 


(—0,42—0,31. cigarrOj+0,16.esporte^ ^ ^ (—2,62—0,41 . dgarrOj+l ,01 . esporte i ) 


*** (-2,46-1,41. cigarrOj +1,13. esporte ^) ^ ^ (-2,86-1 ,61 .dgarro { +\,\6.esporte i ) 


Probabilidade de um individuo i apresentar um indice otimo de colesterol LDL: 

^ (-2,86-1 ,67. cigarrOj +1,16. esporte { ) 

Pi = 


1 + e 


(-0,42—0,31.cigarrOj+0,16.esportej) ^ ^ (—2,62-0,41 . dgarro { +1,01 . esport.e i ) 


*** j ^(-2,46-1,41. cigarrOj +1,13.esporfc,-) ^ ^(-2,86-1,67. cigarro i +1,16. esporte i ) 


Para um individuo que nao fiima e pratica atividades esportivas apenas uma vez por semana, tem-se que: 
Probabilidade de apresentar um indice muito elevado de colesterol LDL = 41,32%. 

Probabilidade de apresentar um indice elevado de colesterol LDL = 31,99%. 
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Probabilidade de apresentar um indice limitrofe de colesterol LDL = 8,23%. 
Probabilidade de apresentar um indice subotimo de colesterol LDL = 10,92%. 
Probabilidade de apresentar um indice otimo de colesterol LDL = 7,54%. 



A partir de duas vezes por semana de realiza^ao de atividades esportivas aumenta-se consideravel- 
mente a probabilidade de que o colesterol LDL atinja mveis subotimos ou otimos. 


Multinomial logistic regression 

Log likelihood = -3276.4384 


Number of obs = 

LR chi2(8) 

Prob > chi2 = 

Pseudo R2 = 

2304 

744.32 

0.0000 

0.1020 

colestquali | 

RRR 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

muito_elev~g | 

(base outcome) 





elevado d~L | 







cigarro | 

.7353554 

.0955835 

-2.36 

0.018 

.5699749 

.9487216 

esporte | 

1.17452 

.0735825 

2.57 

0.010 

1.038803 

1.327967 

limitrofe ~L | 







cigarro | 

.6638439 

.0923425 

-2.95 

0.003 

.5054306 

.8719075 

esporte | 

2.742637 

.1901004 

14.56 

0.000 

2.394247 

3.141722 

subotimo ~L | 







cigarro | 

.2450047 

.034367 

-10.03 

0.000 

.1861126 

.3225321 

esporte | 

3.083463 

.2202329 

15.77 

0.000 

2.680665 

3.546785 

otimo inf~L | 







cigarro | 

.1885317 

.0302037 

-10.41 

0.000 

.1377266 

.258078 

esporte | 

3.175505 

.2515669 

14.59 

0.000 

2.718815 

3.708907 

I 


A chance de se ter um indice de colesterol considerado elevado, em rela^ao a um nivel considerado 
muito elevado, ao se aumentar em uma unidade o numero de vezes em que sao realizadas atividades 
fisicas semanais e mantidas as demais condigoes constantes, e, em media, multiplicada por um fator 
de 1,1745 (17,45% maior). 
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g) A chance de se ter um indice de colesterol considerado otimo, em rela^ao a um nivel considerado 
subotimo, ao se deixar de fumar e mantidas as demais condi^oes constantes, e, em media, multipli- 
cada por um fator de 1,2995 (0,2450047 / 0,1885317), ou seja, a chance e 29,95% maior. 

Dica: Para aqueles que tiverem duvida sobre este procedimento, basta que seja modificada a cate- 
goria de referenda da variavel cigarro (agora com Junta = 0) e estimado o modelo com a categoria 
subotimo da variavel dependente como sendo a categoria de referenda. 

h) e i) 


Observado 

Classificado 

muito elevado 

elevado 

limitrofe 

subotimo 

otimo 

% Acerto 

muito elevado 

542 

0 

34 

58 

0 

85,5% 

elevado 

380 

0 

34 

60 

0 

0,0% 

limitrofe 

236 

0 

74 

126 

0 

17,0% 

subotimo 

182 

0 

58 

214 

0 

47,1% 

otimo 

114 

0 

30 

162 

0 

0,0% 



Eficiencia Global do Modelo 

36,0% 
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Capi'tulo 14 


1) a) 


Estatfstica 

Media 

1,020 

Variancia 

1,125 


Ainda que de forma preliminar, pode-se verificar que a media e a variancia da variavel quantcompras 
sao bem proximas. 



b) 


| Poisson regression 



Number 

of obs = 

200 





LR chi2(2) 

91.32 





Prob > 

chi2 

0.0000 

Log likelihood 

= -223.40892 



Pseudo 

R2 

0.1697 

quantcompras | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

renda | 

-.0011246 

.0001498 

-7.51 

0.000 

-.0014183 

-.000831 

idade | 

-.0864971 

.0173832 

-4.98 

0.000 

-.1205674 

-.0524267 

__cons | 

7.048378 

.8047088 

8.76 

0.000 

5.471178 

8.625578 

II--- ... - - - - II 


II ” -II 

yasterisco | 

Coef. 

Std. Err. 

t 

p>iti 

[95% Conf. 

Interval] 

lambda | 

-.1942878 

.1174778 

-1.65 

0.100 

-.4259489 

.0373734 


Como o valor-P do teste t correspondente ao parametro j8 de lambda e maior do que 0,05, pode- 
-se afirmar que os dados da variavel dependente quantcompras nao apresentam superdispersao, 
fazendo com que o modelo de regressao Poisson estimado seja adequado pela presen£a de equi- 
dispersao nos dados. 

I I Goodness-of-fit chi2 = 159.2441 

I Prob > chi2 (197) _ = 0.9775 
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O resultado do teste indica a existencia de qualidade do ajuste do modelo estimado de regressao 
Poisson, ou seja, nao existem diferen^as estatisticamente significantes, ao mvel de significancia de 5%, 
entre as distribui^oes de probabilidades observadas e previstas de incidencia anual de uso do CDC. 

d) Como todos os valores de z cal < -1,96 ou > 1,96, os valores-P das estatisticas z de Wald < 0,05 
para todos os parametros estimados e, portanto, ja se chega ao modelo final de regressao Poisson. 
Portanto, a expressao final para a quantidade media estimada de uso anual de financiamento por 
meio de CDC quando da compra de bens duraveis, para um consumidor i, e: 

i (7,048-0,001. renda, -0,086. idade { ) 

quantcompras { = e K ' 

v , [7,048-0,001.(2.600)-0,086.(47)1 A ^ 

e) quantcompras = e l = 1,06 

Recomenda-se que este calculo seja feito com o uso de um numero maior de casas decimals. 


1] Poisson regression 



Number 

of obs = 

200 





LR chi2(2) = 

91.32 





Prob > 

chi2 = 

0.0000 

Log likelihood == 

-223.40892 



Pseudo 

R2 

0.1697 

quantcompras | 

IRR 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

renda | 

.998876 

.0001497 

-7.51 

0.000 

.9985827 

.9991694 

idade | 

.9171382 

.0159428 

-4.98 

0.000 

.8864173 

.9489239 

11 a 


f) A taxa de incidencia anual de uso do financiamento por CDC ao se aumentar em R$1,00 a renda 
mensal do consumidor e, em media e mantidas as demais condi^oes constantes, multiplicada por 
um fator de 0,9988 (0,1124% menor). Logo, a cada aumento de R$100,00 na renda mensal do 
consumidor, espera-se que a taxa de incidencia anual de uso do financiamento por CDC seja 
11,24% menor, em media e mantidas as demais condi^oes constantes. 

g) A taxa de incidencia anual de uso do financiamento por CDC ao se aumentar em 1 ano a idade 
media dos consumidores e, em media e mantidas as demais condi^oes constantes, multiplicada por 
um fator de 0,9171 (8,29% menor). 

h) 



1500 2000 2500 3000 3500 

renda mensal do consumidor (R$) 

• Predicted number of events - Median spline 


V. 
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Por meio do grafico elaborado, e possivel perceber que rendas mensais maiores levam a uma dimi- 
nui^ao da quantidade esperada de uso anual de financiamento do tipo CDC quando da compra 
de bens duraveis, com taxa media de redufao de 12,0% a cada incremento de R$100,00 na renda. 


Source 

1 

SS 

df 

MS 


Number of obs 
F( 2 , 119) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 122 
= 21.41 

= 0.0000 
= 0.2646 

= 0.2522 

= .40333 

Model 

Residual 

1 

1 

6.96449203 

19.3584849 

2 3.48224601 

119 .162676344 

Total 

1 

26.322977 

121 .217545264 

lnquantcompra| 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

renda 

1 

-.0005752 

.0000991 

-5.80 

0.000 

-.0007714 

-.0003789 

idade 

1 

-.0228924 

.0094628 

-2.42 

0.017 

-.0416296 

-.0041552 

_cons 

1 

3.013367 

.4755741 

6.34 

0.000 

2.071683 

3.955051 



Pessoas jovens e com menor renda mensal. 


Estatfstica 

Media 

2,760 

Variancia 

8,467 


Ainda que de forma preliminar, ha indicios de existencia de superdispersao nos dados da variavel 
quantimoveis, uma vez que a sua variancia e bastante superior a sua media. 
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b) 


|| Poisson regression 



Number 

of obs = 

100 





LR chi2(2) 

158.26 





Prob > 

ll 

CM 

<rl 

4 

0.0000 

Log likelihood 

= -187.95196 



Pseudo 

R2 = 

0.2963 

quantimdveis | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

distparque | 

.000744 

.0001559 

4.77 

0.000 

.0004384 

.0010495 

shopping | 

-.8999724 

.1717297 

-5.24 

0.000 

-1.236556 

-.5633885 

_cons | 

1.028307 

.1831529 

5.61 

0.000 

.6693339 

1.38728 

■1 II 


ll . . " _ ■ - -■ . ll 

yasterisco | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

lambda | 

.1309382 

.0555372 

2.36 

0.020 

.0207404 

.241136 


Como o valor-P do teste t correspondente ao parametro /? de lambda e menor do que 0,05,pode-se 
afirmar que os dados da variavel dependente quantimdveis apresentam superdispersao, fazendo 
com que o modelo de regressao Poisson estimado nao seja adequado. 


Goodness-of-fit chi2 = 164.6537 ll 

Prob > chi2(97) = 0.0000 | 


Alem disso, o resultado do teste indica a inexistencia de qualidade do ajuste do modelo estimado 
de regressao Poisson, ou seja, existem diferen^as estatisticamente significantes, ao nivel de signifi¬ 
cance de 5%, entre as distributes de probabilidades observadas e previstas para a quantidade de 
imoveis a venda por quadricula. 
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Negative binomial 

Dispersion = 

Log likelihood = 

regression 

mean 

-181.85794 



Number of obs = 

LR chi2(2) 

Prob > chi2 = 

Pseudo R2 = 

100 

71.81 

0.0000 

0.1649 

quantimoveis | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

distparque | 
shopping | 
_cons | 

.0012387 

.6869206 

.6078089 

.0003007 

.2280669 

.2943378 

4.12 

-3.01 

2.07 

0.000 

0.003 

0.039 

.0006494 

-1.133923 

.0309173 

.001828 

-.2399178 

1.1847 

/lnalpha | 

1.468693 

.4256983 



-2.303047 

-.6343399 

alpha | 

.2302261 

.0980069 



.0999538 

.5302854 

Like1ihood-ratio 

test of alpha=0: chibar2(01) 

= 12.19 

Prob>=chibar2 = 0.000 


Como o intervalo de confian^a para 0 (alpha no Stata) nao contem o zero, pode-se afirmar, para o 
nivel de confian^a de 95%, que 0 e estatisticamente diferente de zero e com valor estimado igual a 
0,230. O proprio resultado do teste de razao de verossimilhan^a para o parametro 0 (alpha) indica 
que a hipotese nula de que este parametro seja estatisticamente igual a zero pode ser rejeitada ao 
nivel de significance de 5%. Isso comprova a existence de superdispersao nos dados e, portanto, 
deve-se optar pela estima^ao do modelo binomial negativo. 

Como todos os valores de z x < -1,96 ou > 1,96, os valores-P das estatisticas z de Wald < 0,05 para 
todos os parametros estimados e, portanto, ja se chega ao modelo de regressao binomial negativo 
final. A expressao para a quantidade media estimada de imoveis a venda para determinada quadricula 
ij e, portanto: 

. , . (0,608+0,001. parque--0,687. shopping -) 

quantimoveis {j — e x ' 

.. , . [0,608+0,001.(820)-0,687.(0)1 r- 

quantimoveis = e = 5,07 

Recomenda-se que este calculo seja feito com o uso de um numero maior de casas decimais. 


Negative binomial regression Number of obs = 100 

LR chi2(2) = 71.81 


Dispersion 

Log likelihood 

— mean 

= -181.85794 



Prob > 
Pseudo 

chi2 = 

R2 

0.0000 

0.1649 

quantimoveis 

1 

IRR 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

distparque 

1 

1.001239 

.0003011 

4.12 

0.000 

1.00065 

1.00183 

shopping 

1 

.503123 

.1147457 

-3.01 

0.003 

.3217684 

.7866925 

/lnalpha 

1 

-1.468693 

.4256983 



-2.303047 

-.6343399 

alpha 

1 

.2302261 

.0980069 



.0999538 

.5302854 


Likelihood-ratio test of alpha=0: chibar2(01) = 12.19 Prob>=chibar2 - 0.000 


A quantidade de imoveis a venda por quadricula e multiplicada, em media e mantidas as demais 
condi^oes constantes,por um fator de 1,0012 a cada distanciamento de 1 metro do parque municipal. 
Portanto, quando ha uma aproxima^ao de 1 metro do parque, deve-se dividir a quantidade media 
de imoveis a venda por quadricula por este mesmo fator, ou seja, a quantidade sera multiplicada 
por um fator de 0,9987 (0,1237% menor). Sendo assim, a cada aproxima^ao de 100 metros do 
parque espera-se que a quantidade media de imoveis a venda seja, em media e mantidas as demais 
condigoes constantes, 12,37% menor. 

A quantidade esperada de imoveis a venda quando passa a existir um centra de consumo ou um 
shopping na microrregiao (quadricula) e, mantidas as demais condi^oes constantes, multiplicada por 
um fator de 0,5031, ou seja, passa a ser, em media, 49,69% menor. 














Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata* 



distancia da quadricula ao principal parque do municipio (em metros) 

• Predicted number of events o Predicted number of events 

-sem shopping - com shopping 


V_;_ J 


Sim, pode-se afirmar que a proximidade de parques e areas verdes e a presen^a de shoppings 
e centros de consumo na microrregiao fazem com que a quantidade de imoveis a venda seja 
reduzida, ou seja, estes atributos podem estar colaborando para que se diminua a inten^ao de 
venda de imoveis residenciais. 
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11 





Count 


— •- Observed Pr(y=k) 

-♦— Predicted Pr(y=k) from nbreg 

-o. Predicted Pr(y=k) from poisson 


Comparison of Mean Observed and Predicted Count 


Model 

Maximum 

Difference 

At 

Value 

Mean 
IDiff| 


PRM 0.121 0 0.043 

PRM: Predicted and actual probabilities 

Count Actual Predicted jDiffj 

Pearson 

0 

0.300 

0.179 

0.121 

8.257 

1 

0.170 

0.248 

0.078 

2.441 

2 

0.100 

0.187 

0.087 

4.043 

3 

0.080 

0.113 

0.033 

0.971 

4 

0.080 

0.071 

0.009 

0.108 

5 

0.080 

0.052 

0.028 

1.550 

6 

0.070 

0.040 

0.030 

2.174 

7 

0.060 

0.031 

0.029 

2.619 

8 

0.020 

0.024 

0.004 

0.055 

9 

0.010 

0.017 

0.007 

0.306 

Sum 

0.970 

0.962 

0.426 

22.525 


Comparison of Mean Observed and Predicted Count 


Model 

Maximum 

Difference 

At 

Value 

Mean 

|Diff| 


NBRM -0.071 1 0.035 

NBRM: Predicted and actual probabilities 

Count Actual Predicted |Diff| Pearson 

0 

0.300 


0.241 

0.059 

1.445 

1 

0.170 


0.241 

0.071 

2.110 

2 

0.100 


0.163 

0.063 

2.428 

3 

0.080 


0.099 

0.019 

0.379 

4 

0.080 


0.062 

0.018 

0.508 

5 

0.080 


0.042 

0.038 

3.477 

6 

0.070 


0.030 

0.040 

5.273 

7 

0.060 


0.023 

0.037 

6.113 

8 

0.020 


0.018 

0.002 

0.032 

9 

0.010 


0.014 

0.004 

0.109 


Sum 


0.970 


0.933 


0.352 


21.875 
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Pode-se verificar que o ajuste do modelo de regressao binomial negativo e melhor do que o ajuste 
do modelo de regressao Poisson, ja que: 

• a diferen^a maxima entre as probabilidades observadas e previstas e menor para o modelo bino¬ 
mial negativo; 

• o valor total de Pearson e tambem mais baixo para o modelo de regressao binomial negativo. 
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Capi'tulo 15 



Sim, trata-se de um painel balanceado. 



1 2 3 4 5 1 2 3 4 5 


ano 

Graphs by executive) monitorado 

Sim, e possivel perceber que ha diferen^as na evolu^ao anual do indice de colesterol LDL entre os 
executivos. 


Variable 


1 

Mean 

Std. Dev. 

Min 

Max 

1 

Observations | 











indivi~o 

overall 

1 

5.5 

2.901442 

1 

10 

1 

N = 

50 


between 

1 


3.02765 

1 

10 

1 

n = 

10 


within 

1 


0 

5.5 

5.5 

1 

T = 

5 

ano 

overall 

1 

1 

3 

1.428571 

1 

5 

1 

1 

N = 

50 


between 

1 


0 

3 

3 

1 

n = 

10 


within 

1 


1.428571 

1 

5 

1 

T = 

5 

colest~l 

overall 

I 

1 

145.44 

31.73883 

100 

212 

1 

1 

N as 

50 


between 

1 


32.50009 

100.6 

198.6 

1 

n = 

10 


within 

1 

1 


6.10921 

130.84 

163.04 

1 

1 

T = 

5 

ime 

overall 

1 

1 

23.314 

3.806708 

17 

30 

1 

1 

N = 

50 


between 

1 


3.909635 

17.08 

28.44 

1 

n = 

10 


within 

1 


.673462 

21.674 

24.874 

1 

T = 

5 

esporte 

overall 

1 

1 

2.12 

1.023001 

0 

4 

1 

1 

N = 

50 


between 

1 


.9247222 

8 

4 

1 

n = 

10 


within 

1 


.5111013 

1.12 

3.32 

1 

T = 

5 


Pode-se verificar que a variancia between e maior do que a variancia within para as variaveis coleste¬ 
rol , ime e esporte. 
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II ” ■ ..- - --II 

Variable | 

POLSrob 

EF 

EFrob 

EA 

EArob 

imc | 

esporte | 

cons | 

6.4584531 

.63898153 

-7.8087831 

I. 6961111 

II. 422244 
17.070444 

5.6520914 

1.1033766 

-3.6142131 

1.4538846 

21.329274 

28.162301 

5.6520914 

.87898153 

-3.6142131 

1.288087 

21.329274 

22.2191 

6.9213715 

.57761372 

-3.2892912 

1.2273538 

-8.9515585 

15.452958 

6.9213715 

.62114511 

-3.2892912 

1.2329673 

-8.9515585 

14.848563 

N | 

50 

50 

50 

50 

50 

r2 | 

.95801299 

.76872519 

.76872519 



r2 o | 


.95333342 

.95333342 

.94973335 

.94973335 

r2_b | 


.9626763 

.9626763 

.95807096 

.95807096 

r2__w | 


.76872519 

.76872519 

.76725189 

.76725189 

F | 

132.05755 

63.153347 

54.367063 



chi2 | 




351.87471 

202.99956 

sigma_u | 


9.4149197 

9.4149197 

5.4725363 

5.4725363 

sigma_e | 


3.3362261 

3.3362261 

3.3362261 

3.3362261 

rho | 


.88844061 

.88844061 

.72904917 

.72904917 

theta | 




.73696533 

.73696533 

| legend: b/se | 


e) Sim, existe significancia conjunta das variaveis explicativas para todas as estimates propostas. 

f) Os maiores valores de R 2 between devem-se a existencia de maiores variancias between para todas as 
variaveis do modelo. 

g) Pode-se verificar que os parametros estimados pelos metodos propostos apresentam coerencia em 
termos de sinal, ja que, quanto maior o indice de massa corporea (maior peso em rela^ao a altura) 
e menor a frequencia semanal de praticas esportivas, maior sera o indice de colesterol LDL. 


h) 


Breusch and Pagan Lagrangian multiplier test for random effects 
colesterol[individuo,t] = Xb + u[individuo] + e[individuo,t] 


Estimated results: 

1 

Var 

sd 

= sqrt(Var) 

coleste~l | 

1007.353 


31.73883 

e I 

11.1304 


3.336226 

u | 

29.94865 


5.472536 

Test: Var(u) = 0 


chibar2(01) 

= 

29.98 

Prob > chibar2 

= 

0.0000 


Com base no resultados do teste LM de Breusch-Pagan, pode-se rejeitar a hipotese de que o mode¬ 
lo POLS ofere^a estimadores apropriados, ou seja, existem diferen^as estatisticamente significantes 
(ao nivel de significancia de 5%) entre os executivos ao longo do tempo que justifiquem a ado£ao 
da modelagem em painel. 

I F test that all u_i=0: _____ = 1^4^ gg ^^ =gggg ^ ^^^^^_^__Q 1 OOOoT 

Como o Fde Chow calculado P Chow — 16,44 > F = F 9 38 5% = 2,14, pode-se rejeitar, ao nivel de signi¬ 
ficancia de 5%, a hipotese nula de que todos os efeitos individuais a dos executivos sejam iguais a zero. 


. quietly xtreg colesterol imc esporte, re 
. sort ind ano 
. by ind: gen T=_N 

. gen theta=l-sqrt{e(sigma_e) A 2/(e(sigma_e) A 2+ T*e(sigma_u) A 2)) 

. foreach var of varlist colesterol imc esporte { 

2. 

. by ind: egen mean'var’ = mean('var 1 ) 

3. 

. gen 'var’_re = var' - theta*mean'var' 

4. 

. gen 'var'_fe = 'var' - mean var’ 

5. 

• } 

. quietly reg colesterol_re imc__re esporte_re imc_fe esporte_fe, vce (cluster ind) 

. test imc_fe esporte_fe 

( 1) imc_fe = 0 
( 2) esporte_fe = 0 

F ( 2, 9) = 29.93 

Prob > F = 0.0001 ____ 
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Com base no resultado do teste robusto de Hausman, pode-se rejeitar a sua hipotese nula, ao nivel 
de significance de 5%, ou seja, o modelo proposto deve, de fato, ser estimado por efeitos fixos a fim 
de que seja assegurada a consistencia dos parametros. 

I Test of overidentifying restrictions: fixed vs random effects 
Cross-section time-series model: xtreg re robust cluster(individuo) 

Sargan-Hansen statistic 59.856 Chi-sq(2) _ P-value = 0.0000 _ 

Pode-se, com base no resultado do teste de Schaffer e Stillman, corroborar o resultado do teste ro¬ 
busto de Hausman. 


— 

indivi~o 

b imc 

b espo~e 

b cons 

1 . 

1 

5.866147 

-.1850329 

3.826649 

2. 

2 

7.500004 

-4.25 

-30.00012 

3. 

3 

.7692307 

0 

86.15385 

4. 

4 

6.948233 

-2.130787 

-12.97829 

5. 

5 

6.072236 

-.7313711 

.6071805 

6. 

6 

7.306646 

-.299356 

-13.64341 

7. 

7 

5.313534 

-7.003296 

53.08574 

8. 

8 

24.9999 

-2.5 

-314.9984 

9. 

9 

8.333302 

5.33327 

-55.33247 

10. 

10 

9.22e-16 

-4 

132 


Sim, pode-se pensar em tratamentos especificos para cada executivo, dadas as particularidades exis- 
tentes de cada um que fazem com que sejam estimados parametros distintos, por vezes ate com sinal 
invertido em rela^ao aos demais, como se pode verificar para o executivo 9 (parametro estimado da 
variavel esporte). 

Nota: Este output pode ser obtido tanto pela estimag:ao MQO para cada individuo quanto pela es- 
timaf ao por efeitos fixos, uma vez que, como cada executivo e agora considerado individualmente, 
passa a nao existir mais o efeito do painel nos dados. 


panel variable: 

id (strongly balanced) 

time variable: 

t, 1 to 53 

delta: 

1 unit 


Sim, trata-se de um painel balanceado. 
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Pode-se verificar que, enquanto a variancia within e maior para a variavel expvida, a variancia between e 
maior para a variavel pib__capita. Isso ja era de se esperar, uma vez que o grafico do item (b) mostra que 
as altera^oes da expectativa de vida ao longo dos 53 anos sao mais perceptiveis do que as diferen^as de 
comportamento entre os paises. O mesmo fenomeno ja nao acontece para o PIB per capita , conforme 
mostra o grafico do item (c), uma vez que as maiores diferen^as ocorrem justamente entre os paises, 
sem que haja uma grande altera^ao no comportamento desta variavel ao longo do tempo. 

Wooldridge test for autocorrelation in panel data 
HO: no first-order autocorrelation 
F ( 1, 9) = 2296.579 

_ Prob > F = _ 0.0000 _ 

Com base no resultado do teste de Wooldridge, pode-se rejeitar a hipotese nula de que nao ha cor- 
rela^ao serial de primeira ordem nos termos de erro, ao mvel de significancia de 5%, ou seja, deve 
ser considerada, nas estimates do modelo, a existencia de efeitos autorregressivos de primeira or¬ 
dem AR(1) nos termos de erro. 



Com base no resultado do teste de Pesaran, pode-se rejeitar a hipotese nula de que nao ha corre- 
la^ao entre as cross-sections , ao mvel de significancia de 5%, o que permite que seja considerada a 
existencia de termos de erro heterocedasticos, ou seja, que apresentam correla^ao entre os paineis, 
quando da estima^ao do modelo proposto. 
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1 m "_... 1 _'■_ 1 

Variable | 

POLSarl 

POLSarp 

GLSarlpc~r 

EAarl 

pib capita I 

.00092692 

.00249767 

.00025632 

.00056546 

1 

.00017182 

.00013583 

.00004791 

.00009739 

cons | 

62.701388 

58.290068 

64.724766 

63.654798 

1 

1.6756387 

1.4290433 

.54679997 

1.7875143 

| legend: b/se | 


Os parametros estimados mostraram-se estatisticamente diferentes de zero em to dos os casos, ao 
nivel de significance de 5%. De acordo com os resultados apresentados no item anterior, pode-se 
verificar que a considera^ao de existence de termos de erro serialmente correlacionados e de cor- 
rela^ao entre as cross-sections faz com que os erros-padrao dos parametros estimados pelo metodo 
GLS sejam mais baixos do que aqueles gerados pelos metodos POLS e por efeitos aleatorios. Alem 
disso, embora os termos da constante sejam proximos, os parametros estimados da variavel pib_capita 
(inclina^ao) variam consideravelmente entre os modelos, com destaque para o modelo estimado 
pelo metodo POLS AR(p) (comando xtscc). 



panel 

variable: 

id (unbalanced) 

time 

variable: 

t, 1 to 261 , but with gaps 


delta: 

1 unit 


Sim, trata-se de um painel desbalanceado. 


meta de | 
receita de | 
vendas | 
atingida? | 

meta de 
vendas 

0 

receita de 
atingida? 

1 1 

Total 

0 I 

1 1 

57.17 

35.33 

42.83 | 
64.67 | 

100.00 

100.00 

Total | 

45.20 

54.80 | 

100.00 


Sim, e possivel verificar que existe certa persistence do comportamento da variavel meta mes a mes. 
Enquanto 57,17% dos meses em que nao foi atingida a meta de receita de vendas para determinada 
loja apresentaram o mesmo comportamento no mes seguinte, 64,67% dos meses em que a meta foi 
atingida para determinada loja apresentaram a mesma caracteristica no mes subsequente. 
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|| Summary for variables : 
| by categories of: 

trein 

meta (meta de receita de vendas atingida?) 

meta | 

mean 


Nao | 
Sim | 

160.3186 

258.96 


Total | 

214.3943 






Sim, existe discrepancia entre o valor medio de trein quando meta = 1 e quando meta = 0. 


d. 


Variable | LOGITrob PA EA 

- + - 


#1 


trein | 

1 

cons | 

1 

.00376206 

.00047217 

-.56992289 

.11896007 

.00422691 

.00068838 

-.64413495 

.14316428 

.00416154 

.00033452 

-.68231819 

.0945838 

lnsig2u | 

cons | 

1 



-3.0910585 

.64665767 

Statistics | 

N | 
11 1 
sigma__u | 
rho 1 

3008 

-1943.8329 

3008 

3008 

-1939.4599 

.21319901 

.01362801 


legend: b/se 



f. Para o modelo estimado por efeitos aleatorios, o parametro 0,00416 da variavel trein significa que 
o aumento de 1 profissional-hora de treinamento ao mes, em media e ceteris paribus , incrementa o 
logaritmo da chance de atingimento da meta mensal de receita de vendas, para uma mesma loja, em 
0,416%, ou seja, a sua chance e multiplicada por um fator de e 0,00416 = 1,00417 (0,417% maior). 

g. Para o modelo estimado pelo metodo PA, o parametro 0,00423 da variavel trein significa que o 
aumento de 1 profissional-hora de treinamento ao mes, em media e ceteris paribus, incrementa o 
logaritmo da chance de atingimento da meta mensal de receita de vendas, para uma loja “me¬ 
dia” escolhida aleatoriamente, em 0,423%, ou seja, a chance media e multiplicada por um fator de 
£0,00423 = 1 } 00424 (0,424% maior). 
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stats | 

homicidios 

mean | 

7.095833 

variance | 

21.8907 :j 




Ha indicios de ocorrencia de superdispersao nos dados da variavel dependente homicidios, ja que sua 
variancia e aproximadamente tres vezes superior a sua media. Entretanto, ainda nao se pode afirmar 
categoricamente que este fenomeno esteja ocorrendo, uma vez que o teste especifico para tal fina- 
lidade ainda nao foi elaborado. 


Source | 

SS 

df 

MS 

Model | 
Residual | 

45.6348355 

4914.61046 

1 

959 

45.6348355 

5.12472415 

Total | 

4960.24529 

960 

5.16692218 


Number of obs = 960 
F ( 1, 959) = 8.90 
Prob > F = 0,0029 
R-squared = 0.0092 
Adj R-squared = 0.0082 
Root MSE = 2.2638 


yasterisco | Coef. Std. Err. t P>|t| [95% Conf. Interval] 

- (. --- - - - -- —- -- 

lambda | .0271977 .0091142 2.98 0.003 .0093116 .0450838 


Como o valor-P do teste t correspondente ao parametro /3 da variavel lambda e menor do que 0,05, 
pode-se afirmar, ao nivel de confian^a de 95%, que os dados da variavel dependente homiddios apre- 
sentam superdispersao, fazendo com que a estima^ao de um modelo Poisson nao seja adequada. 


Negative binomial regression Number of obs = 960 

LR chi2(2) = 893.40 


Dispersion 

Log likelihood 

= mean 

= -2329.1747 


Prob > 
Pseudo 

chi2 

R2 

0.0000 

0.1609 

homicidios 

1 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

policia 

1 

-.0068854 

.0003527 

-19.52 

0.000 

-.0075766 

-.0061942 

leiseca 

1 

-.6508806 

.0403306 

-16.14 

0.000 

-.7299271 

-.5718341 

_cons 

1 

3.203768 

.0506753 

63.22 

0.000 

3.104447 

3.30309 

/lnalpha 

1 

-3.472356 

.2575092 



-3.977065 

-2.967647 

alpha 

1 

.0310438 

.0079941 



.0187406 

.0514242 


Likelihood-ratio test of alpha=0: chibar2(01) = 21.52 Prob>=chibar2 = 0.000 
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Como o parametro (j) (alpha no Stata) e estatisticamente diferente de zero, ao nivel de significance 
de 5% ( Sig. X 2 = 0,000 < 0,05), pode-se escrever a expressao da variancia da variavel dependente, 
considerando-se um modelo binomial negativo do tipo NB2, da seguinte forma: 

Var (Y) = u + (0,031).u 2 

em que u representa o valor medio esperado da quantidade mensal de homiddios a cada 100 mil 
habitantes. 


d) 


Variable | 

BNEGrob 

BNEGpa 

BNEGea 

#1 1 




policia | 

-.00688537 

-.0060896 

-.00598724 


.00056281 

.00033785 

.00029523 

leiseca | 

-.65088057 

-.44623098 

-.52401131 


.12814122 

.07635695 

.03761431 

__cons | 

3.2037685 

3.0763497 

16.982241 


.04539692 

.0170012 

243.72999 

lnalpha | 




_cons | 

-3.4723558 




.68030135 




In r 


In s 


Statistics 


N 

11 


16.580239 

243.73019 


2.6075682 

.45433995 


960 

-2329.1747 


960 960 

-2169.3778 


legend: b/se 


Estes sao resultados das estimates para o modelo binomial negativo. 

e) Embora os parametros estimados pelos metodos GEE (.Pooled e PA) e aqueles estimados por efeitos 
aleatorios sejam parecidos e estatisticamente diferentes de zero, ao nivel de significance de 5% (com 
exce^ao do termo da constante para o modelo estimado por efeitos aleatorios), merece destaque a 
redu^ao dos erros-padrao dos parametros estimados por este ultimo metodo. 

f) 


Random-effects 

negative binomial regression 

Number 

of obs = 

960 

Group variable 

id 



Number 

of groups - 

10 

Random effects 

u i - Beta 



Obs per group: min = 

96 






avg = 

96.0 






max = 

96 





Wald chi2(2) 

1091.68 

Log likelihood 

= -2169.3778 


Prob > 

chi 2 

0.0000 

homicidios | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

policia | 

-.0059872 

.0002952 

-20.28 

0.000 

-.0065659 

-.0054086 

leiseca | 

-.5240113 

.0376143 

-13.93 

0.000 

-.597734 

-.4502886 

_cons | 

16.98224 

243.73 

0.07 

0.944 

-460.7198 

494.6842 

/ln_r | 

16.58024 

243.7302 



-461.1221 

494.2826 

/ln_s | 

2.607568 

.45434 



1.717078 

3.498058 

r | 

1.59e+07 

3.87e+09 



5.5e-201 

4.6e+214 

s I 

13.56602 

6.163585 



5.568236 

33.05121 

| Likelihood-ratio test vs. 

pooled: chibar2(01) 

= 290.08 Prob>=chibar2 — 0.000 | 


Com base no resultado do teste de razao de verossimilhan^a, que compara os estimadores dos para¬ 
metros obtidos pelo metodo Pooled com aqueles obtidos por efeitos aleatorios, pode-se rejeitar a hi- 
potese de que o modelo Pooled binomial negativo ofere^a estimadores apropriados, ou seja, existem 
diferen^as estatisticamente significantes (ao nivel de significancia de 5%) entre os estados ao longo 
do tempo que justiquem a ado^ao da modelagem por efeitos aleatorios. 
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O parametro —0,00599 da variavel policia significa, mantidas as demais condi^oes constantes, que a 
taxa de incidencia mensal de homicidios para cada 100 mil habitantes, ao se incrementar o numero 
de policiais a cada 100 mil habitantes em 1 unidade, e, em media, multiplicada por um fator de 
g-0,00599 = 0,994, ou seja, e, em media, 0,597% menor para um mesmo estado. 

Ja o parametro —0,52401 da variavel leiseca significa, tambem mantidas as demais condi^oes cons¬ 
tantes, que a taxa de incidencia mensal de homicidios para cada 100 mil habitantes, ao se passar a 
adotar a lei seca apos as 22:00h, e, em media, multiplicada por um fator de e~°’ 52401 = 0,592, ou seja, 
e, em media, 40,786% menor para um mesmo estado. 
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Capitulo 16 


pais 

1 

Freq. 

Percent 

Cum. 

Alemanha 

1 

5 

4.17 

4.17 

Argentina 

1 

5 

4.17 

8.33 

i Australia 

1 

5 

4.17 

12.50 

Brasil 

1 

5 

4.17 

16.67 

Canada 

1 

5 

4.17 

20.83 

Chile 

1 

5 

4.17 

25.00 

China 

1 

5 

4.17 

29.17 

Cingapura 

1 

5 

4.17 

33.33 

Coreia do Sul 

1 

5 

4.17 

37.50 

Dinamarca 

1 

5 

4.17 

41.67 

Espanha 

1 

5 

4.17 

45.83 

Estados Unidos 

1 

5 

4.17 

50.00 

Finlandia 

1 

5 

4.17 

54.17 

Franga 

1 

5 

4.17 

58.33 

Holanda 

1 

5 

4.17 

62.50 

Islandia 

1 

5 

4.17 

66.67 

Italia 

1 

5 

4.17 

70.83 

Japao 

1 

5 

4.17 

75.00 

Mexico 

1 

5 

4.17 

79.17 

Portugal 

1 

5 

4.17 

83.33 

Reino Unido 

1 

5 

4.17 

87.50 

Suecia 

1 

5 

4.17 

91.67 

Suiga 

1 

5 

4.17 

95.83 

Uruguai 

1 

5 

4.17 

100.00 

Total 

1 

120 

100.00 



De fato, trata-se de uma estrutura equilibrada de dados agrupados, 
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Mixed-effects REML regression 


Number 

of obs = 

120 

Group variable: idpais 


Number 

of groups = 

24 



Obs per group: min = 

5 




avg = 

5.0 




max = 

5 



Wald chi2(0) = 


Log restricted-likelihood = -375 

29715 

Prob > 

chi 2 


nota | Coef. Std. 

Err. 

z P>|z| 

[95% Conf. 

Interval] 

| _cons | 43.56667 4.207426 10, 

35 0.000 

35.32026 

51.81307 

_ 

Random-effects Parameters | 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

idpais: Identity | 





var(_cons) | 

422.6193 

125.2844 

236.3811 

755.5893 

var(Residual) | 

11.19583 

1.615979 

8.437154 

14.8565 

| LR test vs. linear regression: chibar2(01) 

= 310.58 Prob >= chibar2 

= 0.0000 


Sim. Como a estima^ao do componente de variancia T 00 , correspondente ao intercepto aleatorio 
u Qj , e consideravelmente superior ao seu erro-padrao, e possivel verificar que existe variabilidade, 
ao nivel de significancia de 5%, da nota obtida entre estudantes provenientes de paises diferentes. 
Estatisticamente, z = 422,619/125,284 = 3,373 > 1,96, sendo 1,96 o valor critico da distribui^ao 
normal padrao que resulta em um nivel de significancia de 5%. 

Como Sig. X 2 ~ 0,000, e possivel rejeitar a hipotese nula de que os interceptos aleatorios sejam iguais 
a zero (H Q : u Qj = 0), o que faz com que a estimagao de um modelo tradicional de regressao linear 
seja descartada para estes dados agrupados. 


rho = — Tqq 

r 0 o +o 


422,619 

422,619 + 11,196 


= 0,974 


que indica que aproximadamente 97% da variancia total da nota de ciencias sao devidos a existencia 
de diferen^as entre os paises de origem dos participates. 
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renda media mensal da familia do estudante (US$) 


Mixed-effects REML regression 
Group variable: idpais 


Number of obs 
Number of groups 


Obs per group: min 
avg 






max — 

5 




Wald 

chi2(1) 

564.97 

Log restricted-likelihood = 

-357.50053 

Prob 

> chi2 = 

0.0000 

nota | 

Coef. 

Std. Err. 

z P>|z| 

[95% Conf. 

Interval] 

renda | 

.0062453 

.0002627 23 

77 0.000 

.0057303 

.0067603 

_cons | 

4.407937 

1.838957 2 

40 0.017 

.8036471 

8.012227 


Random-effects 

Parameters 

| Estimate 

Std. Err 

[95% Conf. 

Interval] 

idpais: Identity 

var(_cons) 

1 

| 13.08294 

5.292618 

5.920487 

28.91035 

var(Residual) 

| 14.70037 

2.166206 

11.0128 

19.62271 

LR test vs. linear regression: chibar2(01) 

= 30.55 

Prob >= chibar2 

= 0.0000 


Os parametros estimados dos componentes de efeitos fixos e aleatorios sao estatisticamente diferen- 
tes de zero, ao nivel de significancia de 5%. 
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r 

- 

Alemanha 


Argentina 


Australia 


Brasil 


Canada 


Chile 


China 


Cingapura 

wm 

Coreia do Sul 


Dinamarca 


Espanha 


Estados Unidos 

■■■■■ 

Finlandia 


Franga 


Holanda 

■■■■■■■■■■■ 

Islandia 


It&lia 


Japao 


Mexico 

■■■■■■■■■ 

Portugal 

■■■■■ 

Reino Unido 

■■■■■ 

Su6cia 


Suf$a 

■ 

Uruguai 



-!-! ! 

-5 0 5 


Interceptos Aleatorios por Pais 




Mixed-effects REML regression 


Number 

of obs = 

120 

Group variable: idpais 


u 

Q» 

S3 

of groups = 

24 



Obs per group: min = 

5 




avg = 

5.0 




max = 

5 



Wald chi2(l) = 

564.97 

Log restricted-likelihood = -357 

.50053 

Prob > 

chi2 = 

0.0000 

nota | Coef. Std. 

Err. 

z P>|z| 

[95% Conf. 

Interval] 

| renda | .0062453 .0002627 23. 

77 0.000 

.0057303 

.0067603 

__cons | 4.407939 1.838958 2. 

40 0.017 

.8036478 

8.01223 


! Random-effects Parameters | 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

idpais: Independent I 





var(renda) | 

1.73e-19 

1.51e-18 

6.31e-27 

4.72e-12 

var(_cons) | 

13.08295 

5.292633 

5.920483 

28.91042 

var(Residual) | 

14.70037 

2.166238 

11.01275 

19.62279 

LR test vs. linear regression: 

chi2(2) = 30.55 Prob > chi2 

= 0.0000 

1 Note: LR test is conservative and provided only for reference. 



Likelihood-ratio test LR chi2(l) = -0.00 

(Assumption: interceptoalt nested in inclinagaoalt) Prob > chi2 = 1.0000 

Note: The reported degrees of freedom assumes the null hypothesis is not on the 
boundary of the parameter space. If this is not true, then the reported test 
is conservative. 

Note: LR tests based on REML are valid only when the fixed-effects specification 
is identical for both models. 


Sendo o nivel de significance do teste igual a 1,000 (muito maior do que 0,05) em decorrencia de 
que os logaritmos das duas fun^oes de verossimilhan^a restrita sao identicos (LL = -357,501), e fa- 
vorecido o modelo apenas com efeitos aleatorios no intercepto, ja que os termos de erro aleatorio 
u x sao estatisticamente iguais a zero. 











Manual de Analise de Dados: Estati'stica e Modelagem Multivariada com Excel®, SPSS® e Stata 1 



13,22 + 0,0028 .rendaij + 0,0008 .pesqdes j . renday + Uqj + ry 


Valores Previstos HLM2 


Valores Observados 


codigo do | 
distrito k | 

Freq. 

Percent 

Cum. 

01 | 

15 

1.10 

1.10 

02 | 

206 

15.10 

16.20 

03 | 

59 

4.33 

20.53 

04 | 

55 

4.03 

24.56 

05 | 

98 

7.18 

31.74 

06 | 

217 

15.91 

47.65 

07 | 

72 

5.28 

52.93 

08 | 

312 

22.87 

75.81 

09 | 

77 

5.65 

81.45 

10 | 

178 

13.05 

94.50 

11 1 

10 

0.73 

95.23 

12 | 

18 

1.32 

96.55 

13 | 

12 

0.88 

97.43 

14 | 

12 

0.88 

98.31 

15 | 

23 

1.69 

100.00 

Total | 

1,364 

100.00 



De fato, trata-se de uma estrutura desequilibrada de dados agrupados de imoveis em distritos 






















logaritmo natural do prego de aluguel por metro quadrado 
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periodo de monitoramento (ano 1 a 6) 


I Mixed-effects REML regression 


Number of obs 


1 

No. of 

Observations per 

Group 

Group Variable | 

Groups 

Minimum 

Average 

Maximum 

distrito | 

15 

10 

90.9 

312 

imovel | 

277 

1 

4.9 

6 


Log restricted-likelihood = 2242.0905 


Wald chi2(0) 
Prob > chi2 


lnp | Coef. Std. Err. z P>|z| [95% Conf. Interval] 

- + - — - - - — --- — --- 

cons | 4.396943 .0924032 47.58 0.000 4.215836 4.57805 


Random-effects Parameters | Estimate Std. Err. [95% Conf. Interval] 

----- 1 ------- 

distrito: Identity | 

var(_cons) | .1228231 .0490491 .0561507 .2686613 

-+- 

imovel: Identity I 

var(_cons) ] .0367725 .0032308 .0309555 .0436827 

---—-—-f--—---—-— 

var(Residual) | .0006852 .0000294 .0006299 .0007453 


LR test vs. linear regression: chi2(2) = 5270.95 Prob > chi2 = 0.0000 

Note: LR test is conservative and provided only for reference. 


Correla^ao intraclasse de nivel 2: 


rho im A 


_ T «000 + T r000 _ 


0,1228 + 0,0368 


imovel\distrito ^ + ^ +(J 2 0,1228 + 0,0368 + 0,0007 


: 0,996 


Correla^ao intraclasse de nivel 3: 


r h° distrito 


t m000 = _ °> 1228 __ q 766 

T m0 00 + T r 000 + °’ 1228 + °» 0368 + °» 0007 ’ 
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A correla^ao entre os logaritmos naturais dos pre^os de aluguel por metro quadrado dos imoveis de 
um mesmo distrito e igual a 76,6% (r/zo^.J e a correla^ao entre esses indicadores anuais, para um 
mesmo imovel de determinado distrito, e igual a 99,6% (rho im6vdldistrit0 )• Logo, estima-se que os efeitos 
aleatorios de imoveis e distritos compoem mais de 99% da variancia total dos residuos! 

h) Dada a significancia estatistica das variancias T w000 , e <7 2 estimadas (relates entre valores estima- 
dos e respectivos erros-padrao maiores do que 1,96, sendo esse o valor critico da distribui^ao nor¬ 
mal padrao que resulta em um nivel de significancia de 5%), pode-se afirmar que ha variabilidade 
no pre^o de aluguel dos imoveis comerciais ao longo do periodo analisado e que ha variabilidade 
no pre^o de aluguel, ao longo do tempo, entre imoveis de um mesmo distrito e entre imoveis lo- 
calizados em distritos diferentes. 

Como Sig.% 2 = 0,000, e possivel rejeitar a hipotese nula de que os interceptos aleatorios sejam iguais 
a zero (H Q : u QQk = r QJk = 0), o que faz com que a estima^ao de um modelo tradicional de regressao 
linear seja descartada para esses dados. 

|| Mixed-effects REML regression Number of obs = 1364 ]| 


| No. of Observations per Group 

Group Variable | Groups Minimum Average Maximum 

--f- 

distrito | 15 10 90.9 312 

imovel | 277 1 4.9 6 


Log restricted-likelihood = 

2707 

.0164 

Wald chi2(1) 

Prob > chi2 = 

1504.46 

0.0000 

lnp | 

Coef. 

Std. 

Err. z 

P>|z| 

[95% Conf. 

Interval] 

ano | 

.0113169 

.0002918 38.79 

1 0.000 

.0107451 

.0118888 

_cons | 

4.356006 

.093342 46.67 

0.000 

4.173059 

4.538953 


Random-effects 

Parameters 

1 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

distrito: Identity 

1 






var(_cons) 

1 

.1254013 

0500356 

.057368 

.2741162 

imovel: Identity 


1 






var(_cons) 

1 

.0370006 

0032416 

.0311627 

.0439322 

var(Residual) 

1 

.0002874 

0000123 

.0002642 

.0003126 

LR test vs. linear regression: 

chi2(2) 

= 6209.05 

Prob > chi2 

= 0.0000 


|| Note: LR test is 

k) Inicialmente, verifica-se que a variavel correspondente ao ano (tendencia linear) com efeito fixo e 
estatisticamente significante, ao nivel de significancia de 5% (Sig. z = 0,000 < 0,05), o que demons- 
tra que, a cada ano, os pre^os de aluguel dos imoveis comerciais aumentam (sinal positivo), em me¬ 
dia, 1,10% (e 0)0n = 1,011), ceteris paribus. 

Em rela^ao aos componentes de efeitos aleatorios, tambem e possivel verificar a existencia de sig¬ 
nificancia estatistica das variancias de u QOk , r Q . k e e , ao nivel de significancia de 5%, pelo fato de as 
estimates de T , e O 2 serem consideravelmente superiores aos respectivos erros-padrao. 


i) 

j) 















)rios por Imovel 


.5 
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Mixed-effects REML regression 

Number 

of obs = 

1364 

| No. of 

Observations per Group 



Group Variable | Groups 

Minimum Average Maximum 


distrito | 15 

10 

90.9 

312 


imovel | 277 

1 

4.9 

6 




Wald chi2(1) 

53.17 

Log restricted-likelihood = 

3002.8184 

Prob > 

chi2 = 

0.0000 

lnp | Coef. 

Std. Err. 

z P>|z| 

[95% Conf. 

Interval] 

ano | .0135113 

.001853 7 

29 0.000 

.0098795 

.0171431 

_cons | 4.345621 

.0993812 43 

73 0.000 

4.150837 

4.540405 


Random-effects Parameters 

| Estimate 

Std. Err. 

[95% Conf. 

Interval] 

distrito: Independent 

1 




var(ano) 

| .0000428 

.0000201 

.0000171 

.0001075 

var(_cons) 

| .142444 

.0566678 

.0653153 

.3106514 

imovel: Independent 

1 




var(ano) 

| .0000468 

5.32e-06 

.0000375 

.0000585 

var(_cons) 

| .0396378 

.0034779 

.0333752 

.0470756 

var(Residual) 

| .0001034 

5.12e-06 

.0000938 

.000114 

LR test vs. linear regression: chi2(4) = 6800.65 

Prob > chi2 

= 0.0000 

1 Note: LR test is conservative and provided only for reference. 



• Correla^ao intraclasse de mvel 2: 


r ^° imovel \ distrito 


r u000 + T alOO + T r000 + T rlOO 

2 

T w000 + ^100 +T r000 + T rl00 +<7 

0,142444 + 0,000043 + 0,039638 + 0,000047 
0,142444 + 0,000043 + 0,039638 + 0,000047 + 0,000103 


0,9994 


• Correlaqao intraclasse de nivel 3: 


r ^°distrito 


_ t m 000 +t «100 _ 

2 

t k 000 + T wl00 + T r000 + T rl00 +<T 

_ 0,142444 + 0,000043 _ 

0,142444 + 0,000043 + 0,03963 8 + 0,000047 + 0,000103 


0,7817 


Para esse modelo, estima-se que os efeitos aleatorios de imoveis e distritos compoem mais de 99,9% 
da variancia total dos residues! 


Likelihood-ratio test LR chi2(2) = 591.60 

(Assumption: interceptoalt nested in inclinagaoalt) Prob > chi2 = 0.0000 

Note: The reported degrees of freedom assumes the null hypothesis is not on 
the boundary of the parameter space. If this is not true, then the reported 
test is conservative. 

Note: LR tests based on REML are valid only when the fixed-effects specification 
is identical for both models. 


Como Sig. 2 ~ 0)000, opta-se pelo modelo de tendencia linear com interceptos e inclina^oes alea- 
torias. 
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p) 


Mixed-effects REML regression Number of obs = 1364 


1 

No. of 

Observations per Group 

Group Variable | 

Groups 

Minimum 

Average 

Maximum 

distrito | 

15 

10 

90.9 

312 

imovel | 

277 

1 

4.9 

6 




Wald chi2(4) 

= 

153.25 

Log restricted-likelihood = 

3034.426 

Prob > chi 2 

= 

0.0000 


lnp | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

ano | 

.0146736 

.001772 

8.28 

0.000 

.0112006 

.0181466 

alim | 

.2313755 

.0267585 

8.65 

0.000 

.1789298 

.2838212 

vaga4 | 

.189123 

.0996552 

1.90 

0.058 

-.0061976 

.3844437 

valetano | 

-.0037571 

.0010688 

-3.52 

0.000 

-.0058519 

-.0016624 

cons | 

4.134212 

.116233 

35.57 

0.000 

3.9064 

4.362025 


Random-effects Parameters 

1 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

distrito: Independent 

var(ano) 
var (__cons) 

1 

1 

1 

.0000371 

.0973327 

.0000178 

.0412362 

.0000145 

.0424264 

.0000948 

.223296 

imovel: Independent 

var(ano) 
var(_cons) 

1 

1 

1 

.0000445 

.0309745 

5.12e-06 
.0027384 

.0000355 

.0260467 

.0000557 

.0368347 

var(Residual) 

“+- 

1 

.0001036 

5.13e-06 

.000094 

.0001141 


LR test vs. linear regression: chi2(4) = 6426.40 Prob > chi2 = 0.0000 

Note: LR test is conservative and provided only for reference. 


q) 

In=4,134 + 0,015. anoj^ +0,231. alim^ +0,189 .vaga4jj c - 0,004: valet^ . anoj^ 

+ u 00k + u x ok .ano jk + r 0 jk + r x jk .ano j k + e tjk 

Obs.: Neste momento, optou-se tambem por inserir na expressao a estima^ao do parametro da va- 
riavel vaga4 , estatisticamente significante ao nivel de significance de 10%. 

r) Sim, e possivel afirmar que o logaritmo natural do pre^o de aluguel por metro quadrado dos imo- 
veis segue uma tendencia linear ao longo do tempo, existindo variancia significativa de interceptos 
e de inclina^oes entre aqueles localizados no mesmo distrito e entre aqueles que se localizam em 
distritos distintos. 

Sim, haver restaurante ou pra^a de alimenta^ao no empreendimento, existir uma quantidade de va- 
gas no estacionamento maior ou igual a quatro e ter valet park no edificio em que esta localizado o 
imovel explicam parte da variabilidade da evolu^ao do logaritmo natural do pre^o de aluguel por 
metro quadrado dos imoveis. 
















Resolugao dos Exercicios 


Mixed-effects REML regression 

Number 

of obs = 

1364 


| No. of 

Observations per Group 



Group Variable 

| Groups 

Minimum 

Average Maximum 


distrito 

! 15 

10 

90.9 

312 


imovel 

| 277 

1 

4.9 

6 





Wald chi2(7) 

253.83 

Log restricted-likelihood = 

3031.9527 

Prob > 

chi2 - 

0.0000 

lnp | 

Coef. 

Std. Err. 

z P>|z| 

[95% Conf. 

Interval] 

ano | 

.0120531 

.0038976 

3.09 0.002 

.004414 

.0196923 

alim | 

.2325743 

.0266429 

8.73 0.000 

.1803551 

.2847935 

vaga4 | 

.2091672 

.0908442 

2.30 0.021 

.0311158 

.3872186 

valetano | 

-.0036536 

.0010623 

-3.44 0.001 

-.0057357 

-.0015715 

metro | 

.5102008 

.1141621 

4.47 0.000 

.2864471 

.7339544 

metroano | 

-.0064555 

.0027587 

-2.34 0.019 

-.0118624 

-.0010486 

violenciaano | 

.0001253 

.0000504 

2.49 0.013 

.0000266 

.0002241 

_cons | 

3.780086 

.1105143 

34.20 0.000 

3.563482 

3.99669 


| Random-effects 

Parameters 

| Estimate Std. Err. 

[95% Conf. 

Interval] 

II distrito: Independent 

1 





var(ano) 

| .0000158 9.12e-06 

5.08e-06 

.000049 


var (_cons) 

| .0370036 .0170158 

.0150255 

.0911299 

|| imovel: Independent 

1 





var(ano) 

| .0000443 5.09e-06 

.0000354 

.0000555 


var(_cons) 

| .0309607 .0027321 

.0260433 

.0368065 

| var(Residual) 

| .0001035 5.13e-06 

.0000939 

.0001141 

I LR test vs. linear regression: chi2(4) = 5803.23 

Prob > chi2 

= 0.0000 

| Note: LR test is 

conservative and provided only for reference. 



Matriz de variancia-covariancia dos efeitos aleatorios para o nivel distrito: 


u 00k 


'0,037004 

0 

. u l0k. 


0 

0,000016 


Matriz de variancia-covariancia dos efeitos aleatorios para o nivel imovel: 


’ r o jk 


"0,030961 

0 

_ r \jk_ 


0 

0,000044_ 
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U) 


Mixed-effects REML regression 

Number of obs 


1364 

1 

Group Variable | 

No. of 
Groups 

Observations per Group 

Minimum Average Maximum 

distrito | 

15 

10 

90.9 312 



imovel | 

277 

1 

4.9 6 






Wald chi2(7) 


261.77 

Log restricted-likelihood = 

3052.8766 

Prob > chi2 

= 

0.0000 


lnp 

1 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

ano 

1 

.0144594 

.0028955 

4.99 

0.000 

.0087844 

.0201344 

alim 

1 

.2314046 

.0263078 

8.80 

0.000 

.1798423 

.2829669 

vaga4 

1 

.2070735 

.0799605 

2.59 

0.010 

.0503538 

.3637931 

valetano 

1 

-.0030589 

.0010334 

-2.96 

0.003 

-.0050844 

-.0010334 

metro 

1 

.511133 

.1141282 

4.48 

0.000 

.2874459 

.7348201 

metroano 

1 

-.0071702 

.0025389 

-2.82 

0.005 

-.0121464 

-.0021941 

violenciaano 

1 

.0000913 

.0000326 

2.80 

0.005 

.0000274 

.0001552 

_cons 

1 

3.780677 

.1070655 

35.31 

0.000 

3.570833 

3.990521 


Random-effects Parameters | 

Estimate 

Std. Err. 

[95% Conf. 

Interval] 

distrito: Unstructured | 

var(ano) | 
var(_cons) | 
cov(ano,_cons) | 

.0000145 

.0372534 

-.0006527 

8.30e-06 
.0169283 
.0003303 

4.74e-06 
.0152888 
-.0013001 

.0000445 
.0907736 
-5.36e-06 

imovel: Unstructured | 

var(ano) | 
var(_cons) | 

cov(ano,_cons) | 

.0000457 

.0316789 

-.0004843 

5.24e-06 
.0027943 
.0000951 

.0000365 

.0266494 

-.0006707 

.0000573 

.0376576 

-.0002978 

var(Residual) | 

.0001032 

5.09e-06 

.0000937 

.0001136 

LR test vs. linear regression: 

chi2(6) 

= 5845.08 

Prob > chi2 

= 0.0000 


Note: LR test is conservative and provided only for reference. 


v) 


• Matriz de variancia-covariancia dos efeitos aleatorios para o nivel distvito: 


u 00 k 


" 0,037253 

-0,000653' 

_ u \0k _ 


_-0,000653 

0,000014 _ 


• Matriz de variancia-covariancia dos efeitos aleatorios para o nivel imovel: 


~ r 0 jk 


' 0,031679 -0,000484' 

J\jk_ 


-0,000484 0,000046 _ 


w) 


Likelihood-ratio test LR chi2(2) = 41.85 

(Assumption: indep nested in correl) Prob > chi2 = 0.0000 

Note: LR tests based on REML are valid only when the fixed-effects specification 
is identical for both models. 


Como Sig. = 0,000, a estrutura das matrizes de variancia-covariancia dos termos aleatorios e 
considerada unstructured, ou seja, pode-se concluir que os termos de erro u QQk e u m sejam corre- 
lacionados (cov(u fm , u m ) * 0) e que os termos de erro r Qjk e r yk tambem sejam correlacionados 

( cov (%* * r y k ) * °)- 
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i (p\jk =3,7807 + 0,0144 .anoj k + 0,2314 .alim^ + 0,207 \.vaga4j k +0,5111 .metrd k 
- 0,0031 .valetjfr.anoj k - 0, 0012.metrd k .ano j k + 0,0001. violencia k .anoj k 
+ u 0Qk + u x ok .anoj k + r 0 jk + r x jk .ano jk + e tjk 

Sim, e possivel afirmar que a existencia de metro e o indicador de violencia no distrito explicam 
parte da variabilidade da evolu^ao do logaritmo natural do pre^o de aluguel por metro quadrado 
entre imoveis localizados em diferentes distritos. 



MQO - HLM3 . Valores Observados 
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Capitulo 17 



*5 






1 

tempo 

St 

ht 

htacum 

1 

1 . 

1 

2 

.98 

.02 

.02 

1 

2. 

1 

4 

.96 

.02040816 

.04040816 

1 

3. 

1 

18 

.94 

.02083333 

.0612415 

1 

4. 

1 

24 

.92 

.0212766 

.08251809 

1 

5. 

1 

30 

.88 

.04347826 

.12599635 

1 

6. 

1 

30 

.88 

.04347826 

.12599635 

1 

7. 

1 

34 

.86 

.02272727 

.14872363 

1 

8. 

1 

36 

.84 

.02325581 

.17197944 

1 

9. 

1 

40 

.82 

.02380952 

.19578896 

1 

10. 

1 

48 

.82 


.19578896 

1 

11. 

1 

64 

.82 


.19578896 

1 

12. 

1 

66 

.79897436 

.02564103 

.22142999 

1 

13. 

1 

68 

.79897436 


.22142999 

1 

14. 

1 

74 

.75578656 

.05405405 

.27548404 

1 

15. 

1 

74 

.75578656 

.05405405 

.27548404 

1 

16. 

1 

74 

.75578656 

.05405405 

.27548404 

1 

17. 

1 

82 

.73355754 

.02941176 

.30489581 

1 

18. 

1 

102 

.71132852 

.03030303 

.33519884 

1 

19. 

1 

106 

.68909951 

.03125 

.36644884 

1 

20. 

1 

108 

.66687049 

.03225806 

.3987069 

1 

21. 

1 

118 

.64464147 

.03333333 

.43204024 

1 

22. 

1 

120 

.62241246 

.03448276 

.46652299 

1 

23. 

1 

128 

.60018344 

.03571429 

.50223728 

1 

24. 

1 

130 

.57795443 

.03703704 

.53927432 

1 

25. 

1 

132 

.57795443 


.53927432 

1 

26. 

1 

134 

.53171807 

.08 

.61927432 

1 

27. 

1 

134 

.53171807 

.08 

.61927432 

1 

28. 

1 

144 

.50859989 

.04347826 

.66275258 

1 

29. 

1 

162 

.48548172 

.04545455 

.70820712 

1 

30. 

1 

168 

.46236354 

.04761905 

.75582617 

1 

31. 

1 

172 

.46236354 


.75582617 

1 

32. 

1 

178 

.46236354 


.75582617 

1 

33. 

1 

180 

.46236354 


.75582617 

1 

34. 

1 

182 

.46236354 


.75582617 

1 

35. 

1 

182 

.46236354 


.75582617 

1 

36. 

1 

182 

.46236354 


.75582617 

1 

37. 

1 

184 

.46236354 


.75582617 

1 

38. 

1 

184 

.46236354 


.75582617 

1 

39. 

1 

184 

.46236354 


.75582617 

1 

40. 

1 

186 

.46236354 


.75582617 

1 

41. 

1 

186 

.46236354 


.75582617 

1 

42. 

1 

188 

.46236354 


.75582617 

1 

43. 

1 

188 

.46236354 


.75582617 

1 

44. 

1 

188 

.46236354 


.75582617 

1 

45. 

1 

188 

.46236354 


.75582617 

1 

46. 

1 

190 

.46236354 


.75582617 

1 

47. 

1 

190 

.46236354 


.75582617 

1 

48. 

1 

192 

.46236354 


.75582617 

1 

49. 

1 

194 

.46236354 


.75582617 

1 

50. 

1 

194 

.46236354 


.75582617 

1 


+ - 






























Resolugao dos Exercicios 1127 


b) 


Cox regression 

-- Breslow 

method 

for 

ties 




No. of subjects 

= 

50 



Number 

of obs = 

50 

No. of failures 

= 

25 






Time at risk 

= 

6166 











LR chi2(5) 

65.93 

Log likelihood 

= -55.411423 



Prob > 

chi2 

0.0000 

_t | 

Coef. 

Std. 

Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

idade | 

-.118736 

.0433965 

-2.74 

0.006 

-.2037915 

-.0336805 

sexo | 

2.898045 

.6094953 

4.75 

0.000 

1.703457 

4.092634 

renda | 

.0001172 

.0002214 

0.53 

0.597 

-.0003167 

.0005511 

_Iperfil_2 | 

1.203413 

.5917672 

2.03 

0.042 

.0435706 

2.363255 

Iperfil 3 | 

2.434759 

.8669192 

2.81 

0.005 

.7356283 

4.133889 

11 11 


Cox regression 

-- Breslow 

method for 

ties 




No. of subjects 

= 

50 


Number 

of obs = 

50 

No. of failures 

= 

25 





1 Time at risk 


= 

6166 










LR chi2(5) 

65.93 

|| Log likelihood 

= -55.411423 


Prob > 

chi2 

0.0000 

_t 

| Haz. Ratio 

Std. Err 

z 

P>|z| 

[95% Conf. 

Interval] 

idade 

1 

.8880422 

.0385379 

-2.74 

0.006 

.8156324 

.9668804 

sexo 

] 

18.13866 

11.05543 

4.75 

0.000 

5.492902 

59.89747 

renda 

1 

1.000117 

.0002214 

0.53 

0.597 

.9996834 

1.000551 

Iperfil 2 

1 

3.331468 

1.971453 

2.03 

0.042 

1.044534 

10.62549 

_Iperfil_3 

1 

11.41306 

9.894204 

2.81 

0.005 

2.086793 

62.4202 

11 a 


Enquanto o perfil moderado e representado pela variavel dummy _Iperftl_2 , o perfil arrojado e repre- 
sentado pela dummy _Iperfil_3. 

c) Sim. Como o valor-P da estatistica ^ < 0,05, pode-se afirmar que pelo menos uma das variaveis X 
e estatisticamente significante, ao nivel de significancia de 5%, para explicar a taxa de risco de ocor- 
rencia de compra de a^oes no Home Broker para diferentes tempos de monitoramento, relativamente 
a taxa de risco basal. 

d) Sim. Como o valor-P da estatistica z de Wald > 0,05 para o parametro da variavel renda, esta variavel 
ja se mostrou estatisticamente nao significante, ao nivel de significancia de 5%, para explicar a taxa 
de risco de ocorrencia da compra de a^oes. Deve-se partir, portanto, para a estima^ao do modelo 
final por meio do procedimento Stepwise. 


Cox regression 

-- Breslow 

method for 

ties 




No. of subjects 

= 

50 


Number 

of obs = 

50 

No. of failures 

= 

25 





Time at risk 

= 

6166 









LR chi2(4) 

65.65 

Log likelihood 

= -55.554382 


Prob > 

chi2 

0.0000 

__t | 

Coef. 

Std. Err 

z 

P>|z| 

[95% Conf. 

Interval] 

idade | 

-.1067922 

.0368553 

-2.90 

0.004 

-.1790272 

-.0345572 

sexo | 

2.898628 

.6096602 

4.75 

0.000 

1.703716 

4.09354 

Iperfil 2 1 

1.169734 

.5879311 

1.99 

0.047 

.0174106 

2.322058 

_Iperfil_3 | 

2.559932 

.8274926 

3.09 

0.002 

.9380763 

4.181788 

11 .— ■ 
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Cox regression — 

Breslow method for ties 




No. of subjects = 

50 

Number of obs 

= 

50 

No. of failures = 

25 




Time at risk = 

6166 

LR chi2 (4) 

_ 

65.65 

Log likelihood = 

-55.554382 

Prob > chi2 

= 

0.0000 


1 

Haz. Ratio 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

idade | 

.8987124 

.0331223 

-2.90 

0.004 

.8360831 

.9660331 

sexo | 

18.14923 

11.06486 

4.75 

0.000 

5.494327 

59.95175 

_Iperfil_2 | 

3.221137 

1.893806 

1.99 

0.047 

1.017563 

10.19664 

__Iperfil_3 | 

12.93494 

10.70357 

3.09 

0.002 

2.555062 

65.48282 


U {A — U (A (—0,1068.jV/^£/e ( +2,8986.1,1697. _ perfil_ 2, +2,5599._ perfil _ 3 i ) 

Hi (t) — n 0i [tj.e 

A A (—0,1068. idadej+2,8986. sexoj+1 ,1697. _ perfil _ 2/+2,5599. _ perfil _ 3;) 

s,.(0=5 Oi (0 e 


Cox regression 

— Breslow 

method for 

ties 




No. of subjects 


50 


Number of obs = 

50 

No. of failures 

= 

25 





Time at risk 

— 

6166 


LR 

chi2(8) 

71.90 

Log likelihood 

= -52.429217 


Prob > chi2 = 

0.0000 

_t | 

Coef. 

Std. Err 

z 

P>|z| 

[95% Conf. 

Interval] 

main | 







idade | 

-.5671129 

.308397 

i 

i-* 

00 

0.066 

-1.17156 

.0373341 

sexo | 

10.22207 

12.77426 

0.80 

0.424 

-14.81502 

35.25915 

Iperfil 2 | 

-4.319389 

5.366694 

i 

o 

00 

o 

0.421 

-14.83792 

6.199137 

_Iperfil_3 | 

3.855301 

9.738436 

0.40 

0.692 

-15.23168 

22.94229 

tvc | 







idade | 

.1066689 

.0689528 

1.55 

0.122 

-.0284761 

.241814 

sexo | 

-1.573287 

2.636519 

o 

VO 

o 

1 

0.551 

-6.740769 

3.594196 

__Iperfil_2 | 

1.152325 

1.172384 

0.98 

0.326 

-1.145505 

3.450155 

__Iperfil_3 | 

-.8778638 

2.689728 

-0.33 

0.744 

-6.149634 

4.393907 

Note: variables 

in tvc equation interacted with 

ln( t) 




Test of proportional-hazards assumption 
Time: Time 


1 

rho 

chi2 

df 

Prob>chi2 

idade I 

0.15107 

0.65 

1 

0.4202 

sexo | 

-0.08363 

0.15 

1 

0.6969 

Iperfil 2 | 

0.09781 

0.25 

1 

0.6138 

_Iperfil_3 | 

-0.01752 

0.01 

1 

0.9341 

global test | 


1.50 

4 

0.8271 


Com base na analise dos resultados, pode-se verificar que nenhuma das variaveis explicativas e de¬ 
pendence do tempo de monitoramento, ao mvel de significance de 5%, o que indica que nao ha a 
viola^ao do principio da proporcionalidade. 

h) A taxa de risco de ocorrencia de compra de a^oes (hazard ratio ) quando se aumenta em 1 ano a 
idade media dos clientes e, em media e mantidas as demais condi^oes constantes, multiplicada por 
um fator de 0,8987 (10,13% menor). 

i) A taxa de risco de ocorrencia de compra de a^oes (hazard ratio) dos homens e, em media e mantidas 
as demais condi^oes constantes, multiplicada por um fator de 18,1492, ou seja, e 1.714,92% maior 
em rela^ao a taxa de risco de ocorrencia de compra de a^oes das mulheres. 
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A taxa de risco de ocorrencia de compra de a$oes nao e influenciada pelo comportamento da renda 
media familiar. 


A taxa de risco de ocorrencia de compra de a^oes (hazard ratio) dos clientes que se consideram 
moderados e, em media e mantidas as demais condi^oes constantes, multiplicada por um fator de 
3,2211, ou seja, e 222,11% maior em rela^ao a taxa de risco de ocorrencia de compra de a$oes da- 
queles que se consideram conservadores. Alem disso, a taxa de risco de ocorrencia de compra de 
a$6es (hazard ratio ) dos clientes que se consideram arrojados e, em media e tambem mantidas as de¬ 
mais condi^oes constantes, multiplicada por um fator de 12,9349, ou seja, e 1.193,49% maior em 
rela^ao a taxa de risco de ocorrencia de compra de a^oes daqueles que se consideram conservadores. 
Para este cliente (id = 02 no banco de dados), que foi monitorado por 34 dias, o valor da probabili- 
dade basal e de 0,83569. Logo, a probabilidade de sobrevivencia ao evento, ou seja, a probabilidade 
de nao comprar a^oes, e: 


A [-0,1068.(32)+2,8986.(1)+1,1697.(1)] 

S — (0,83569) e 


= 0,7088 


e, portanto, a probabilidade de comprar acoes e: 


F = 1-0,7088 = 0,2912 



Cox proportional hazards regression 



v._ ) 
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Cox proportional hazards regression 



Cox proportional hazards regression 



analysis time 


sexo=0 -— sexo=1 


Cox proportional hazards regression 



50 


100 

analysis time 


150 
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Cox proportional hazards regression 



Pode-se verificar que os homens apresentam riscos maiores de comprar a^oes do que as mulheres. 
Nao esta se discutindo, entretanto, o desempenho destas transa^oes. 


Log-rank test for equality of survivor functions 
| Events Events 


sexo | 

observed 

expected 

feminino | 
masculino | 

4 

21 

18.67 

6.33 

Total | 

25 

25.00 


chi2(1) = 
Pr>chi2 = 

50.17 

0.0000 


Com base no resultado do teste Log-rank , pode-se verificar que o risco de se comprar a^oes e dife- 
rente entre homens e mulheres, ao nivel de significancia de 5%. 


Log-rank test for equality of survivor functions 

| Events Events 

perfil | observed expected 

- + - 

conservador | 4 11.78 

moderado | 16 12.04 

arrojado | 5 1.18 

- + - 

Total | 25 25.00 

chi2(2) = 19.83 

Pr>chi2 = 0.0000 


Com base no resultado do teste Log-rank, pode-se verificar que pelo menos uma das fun^oes de so- 
brevivencia ao evento para o tipo de perfil (conservador, moderado ou arrojado) e estatisticamente 
diferente das demais, ao nivel de significancia de 5%. 
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. sts test perfil if perfil == 1 | perfil == 2, w 
failure _d: compra 
analysis time _t: tempo 
id: id 

Wilcoxon (Breslow) test for equality of survivor functions 


1 

perfil | 

Events 

observed 

Events 

expected 

Sum of 
ranks 

conservador | 
moderado I 

4 

16 

10.19 

9.81 

-192 

192 

Total | 

20 

20.00 

0 


chi2 (1) = 
Pr>chi2 = 

7.29 

0.0069 



. sts test perfil if perfil -= 1 | perfil == 3, w 
failure _d: compra 
analysis time _t: tempo 
id: id 

Wilcoxon (Breslow) test for equality of survivor functions 


1 

perfil | 

Events 

observed 

Events 

expected 

Sum of 
ranks 

conservador | 
arrojado | 

4 

5 

7.66 

1.34 

-84 

84 

Total | 

9 

9.00 

0 


chi2(1) = 
Pr>chi2 s 

13.26 

0.0003 



. sts test perfil if perfil == 2 | perfil =- 3, w 
failure _d: compra 
analysis time _t: tempo 
id: id 

Wilcoxon (Breslow) test for equality of survivor functions 


1 

perfil | 

Events 

observed 

Events 

expected 

Sum of 
ranks 

moderado | 
arrojado | 

16 

5 

19.23 

1.77 

-101 

101 

Total | 

21 

21.00 

0 


chi2(1) = 
Pr>chi2 = 

10.04 

0.0015 



Com base nos resultados dos testes de Breslow (Wilcoxon), pode-se verificar que: 

• A fun^ao de sobrevivencia ao evento dos clientes considerados conservadores e mais similar a 
fun^ao de sobrevivencia ao evento dos clientes considerados moderados, embora tais comporta- 
mentos sejam estatisticamente diferentes ao nivel de significance de 5% (maior valor-P, embora 
ainda seja menor do que 0,05); 

• Como era de se esperar, as fun^oes de sobrevivencia ao evento dos clientes considerados conser¬ 
vadores e arrojados sao as que apresentam comportamentos mais discrepantes. 


2) a) 


Cox regression -- Breslow method for ties 

No. of subjects = 2945 Number of obs - 2945 

No. of failures = 905 

Time at risk = 93917 

LR chi2(2) = 6.04 

Log likelihood = -5899.6066 Prob > chi2 = 0.0488 

_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] 

- 1 ---—-'-—- 

medicamento | .8103263 .0690066 -2.47 0.014 .6857605 .9575191 

sexo | 1.024089 .0913813 0.27 0.790 .8597721 1.219809 
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Cox regression -- Breslow method for ties 


No. of subjects = 
No. of failures = 
Time at risk = 


2945 

905 

93917 


Log likelihood = -5899.2487 


_t | 

- + - 

main | 

medicamento | -.2012537 

sexo | .1648786 

- + - 

tvc | 

medicamento | -.0038374 

sexo | 


Coef. Std. Err. 


.1944179 

.2010689 


.0545492 

.0554241 


Number of obs 


LR chi2(4) 
Prob > chi2 


2945 


6.76 

0.1493 


-1.04 

0.82 


-0.07 

-0.80 


P>|z| 


0.301 

0.412 


0.944 

0.425 


[95% Conf. Interval] 


-.5823058 

-.2292092 


.1797985 

.5589664 


.0441826 

Note: variables in tvc equation interacted with In (_t) 


-.1107519 .1030771 

-.1528119 .0644467 


Test of proportional-hazards assumption 


Time: Time 


1 

rho 

chi 2 

df 

Prob>chi2 

medicamento | 
sexo | 

-0.00620 

0.00431 

0.03 

0.02 

1 

1 

0.8529 

0.8970 

global test | 


0.04 

2 

0.9797 


Apos a estimagao do modelo de riscos proporcionais de Cox com a inclusao das variaveis me¬ 
dicamento e sexo como preditoras, pode-se verificar que estas nao sao dependentes do tempo de 
monitoramento, ao nivel de significancia de 5%, o que indica que nao ha a violagao do principio 
da proporcionalidade, mesmo nao sendo estatisticamente diferente de zero o parametro da varia- 
vel sexo. 
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As linhas praticamente horizontais dos graflcos tambem indicam que nao ha viola^ao do principio 
da existencia de riscos proporcionais. 


C) _________________________ 

nLog-ran^Tes^To^e^alTty™oir*survivor ,, ^functionT 


| Events Events 


medicamento 

1 

observed 

expected 

medicamento 

medicamento 

antigo | 
novo | 

190 

715 

161.33 

743.67 

Total 

1 

905 

905.00 



chi2 (1) = 
Pr>chi2 = 

6.30 

0.0121 


Sim. Por meio do teste Log-rank, pode-se verificar que pacientes que recebem medicamento novo 
e pacientes que sao tratados com medicamento considerado mais antigo apresentam probabilidades 
de sobrevivencia estatisticamente diferentes, ao mvel de significance de 5%. 



Por meio do grafico elaborado, pode-se verificar que pacientes tratados com medicamento novo 
apresentam maiores probabilidades de sobrevivencia. 
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A mesma conclusao pode ser obtida com base na analise deste grafico, uma vez que se pode verificar 
que pacientes tratados com medicamento novo apresentam riscos menores de morrer. 


Log-rank test for equality of survivor functions 
| Events Events 


sexo | 

observed 

expected 

feminino | 
masculino | 

169 

736 

164.40 

740.60 

Total | 

905 

905.00 


chi2(1) = 
Pr>chi2 = 

0.16 

0.6882 


Nao. Por meio do teste Log-rank, pode-se verificar que pacientes do sexo feminino e do sexo mas- 
culino nao apresentam probabilidades de sobrevivencia estatisticamente diferentes, ao nivel de sig¬ 
nificance de 5%. 


/-^ 


Cox proportional hazards regression 



v . . j 


Por meio do grafico elaborado, pode-se verificar que pacientes do sexo feminino e do sexo mascu- 
lino nao apresentam probabilidades diferentes de sobrevivencia. 
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h i( 0=M0 


(—0,2040. medicamento ^) 


A a (—0,2040. medicamentoi) 

s,{t)=s 0i {ty 



A taxa de risco de ocorrencia de morte (hazard ratio) dos pacientes tratados com medicamento no¬ 
vo e, em media e mantidas as demais condi^oes constantes, multiplicada por um fator de 0,8154, ou 
seja, e 18,46% menor em rela^ao a taxa de risco de ocorrencia de morte dos pacientes tratados com 
medicamento considerado mais antigo. 


Capftulo 18 



| zcalculo 

zmarke~g 

zfinan~s 

zecono~a 

zfaltas 

zhoras 

zsexo 

zcalculo 

| 1 







zmarketing 

| .637106 

1 






zfinangas 

| .986849 

.615152 

1 





zeconomia 

| .673368 

.983973 

.653633 

1 




zfaltas 

| -.719806 

-.725524 

-.691378 

-.732898 

1 



zhoras 

| .689297 

.619179 

.709893 

.60772 

-.694856 

1 


zsexo 

| .141271 

.15464 

.199233 

.120868 

-.266395 

.156941 

1 
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| Linear combinations for canonical correlations 


Number of obs 

= 30 

1 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

ul | 







zcalculo | 

.1927662 

.8340191 

0.23 

0.819 

-1.512994 

1.898527 

zmarketing | 

1.041409 

.7518591 

1.39 

0.177 

-.4963152 

2.579134 

zfinangas | 

.4477867 

.8171683 

0.55 

0.588 

-1.22351 

2.119084 

zeconomia | 

-.5683914 

.7824441 

-0.73 

0.473 

-2.168669 

1.031886 

vl | 







zfaltas | 

-.6111107 

.1831892 

-3.34 

0.002 

-.9857748 

-.2364467 

zhoras | 

.470087 

.178785 

2.63 

0.014 

.1044306 

.8357434 

zsexo | 

.0130244 

.1333933 

0.10 

0.923 

-.2597956 

.2858443 

u2 | 







zcalculo | 

5.27139 

1.426936 

3.69 

0.001 

2.352978 

8.189802 

zmarketing | 

-2.666793 

1.286367 

-2.07 

0.047 

-5.297709 

-.0358758 

zfinangas | 

-5.554585 

1.398106 

-3.97 

0.000 

-8.414032 

-2.695137 

zeconomia | 

2.914161 

1.338696 

2.18 

0.038 

.1762211 

5.652101 

v2 | 







zfaltas | 

-1.069628 

.3134213 

-3.41 

0.002 

-1.710646 

-.4286095 

zhoras | 

-.9064696 

.305886 

-2.96 

0.006 

-1.532077 

-.2808624 

zsexo | 

-.7767244 

.2282247 

-3.40 

0.002 

-1.243496 

-.3099524 

u3 | 







zcalculo | 

1.581251 

13.46237 

0.12 

0.907 

-25.9524 

29.1149 

zmarketing | 

-1.723424 

12.13618 

-0.14 

0.888 

-26.54471 

23.09786 

zfinangas | 

-.4751535 

13.19038 

-0.04 

0.972 

-27.4525 

26.5022 

zeconomia | 

.569876 

12.62987 

0.05 

0.964 

-25.26112 

26.40087 

v3 | 







zfaltas | 

.7182034 

2.956961 

0.24 

0.810 

-5.329461 

6.765868 

zhoras | 

.945574 

2.88587 

0.33 

0.746 

-4.956693 

6.847841 

zsexo | 

-.6889824 

2.153177 

-0.32 

0.751 

-5.092724 

3.71476 



(Standard errors 

estimated conditionally) II 

Canonical correlations: 






0.8365 0.6658 0.0942 






| Tests of significance of all canonical 

correlations 




Statistic 

dfl 

df2 

F 

Prob>F 

Wilks 

lambda 

.165687 

12 61 

.1438 

4.9567 

0.0000 a 

1 Pillai' 

s trace 

1.15186 

12 

75 

3.8953 

0.0001 a 

I Lawley-Hotelling trace 

3.13556 

12 

65 

5.6614 

0.0000 a 

I Roy's largest root 

2.33048 

4 

25 

14.5655 

0.0000 u 

| Test of significance of canonical correlations 

1-3 




Statistic 

dfl 

df2 

F 

Prob>F 

i Wilks 

lambda 

.165687 

12 61 

.1438 

4.9567 

0.0000 a 

I! Test of significance of canonical correlations ; 

2-3 




Statistic 

dfl 

df2 

F 

Prob>F 

1 Wilks 

lambda 

.551815 

6 

48 

2.7694 

0.0215 e 

1 Test of significance of canonical correlation 3 





Statistic 

dfl 

df2 

F 

Prob>F 

Wilks 

lambda 

.991135 

2 

25 

0.1118 

0.8947 e 



e = exact, 

a = approximate 

, u = upper bound on F. | 


Obs.: Os valores-P das estatisticas t dos parametros estimados para a variavel canonica u t sao maiores do que 0,05 
pelo fato de estas variaveis apresentarem elevadas correlagoes entre si. Isso, todavia, nao significa que a correlagao 
canonica da primeira dimensao sera estatisticamente igual a zero, conforme sera comprovado adiante. 


u u = 0,1928 .zcdkulo i +1,0414. zmarketing i + 0,447 S.zfinan^as i - 0,5684. zeconomia i 
v Xi — — 0,6111. zfaltaS; +0,4701 .zhoras i +0,0130 .zsexo { 

u 2i = 5,2714. zcalculo i - 2,6668. zmarketing i - 5,5546. zfinangas i +2,9142 .zeconomi^ 
v 2i — -1,0696 .zfaltas i — 0,9065 .zhoras { — 0,7767.zsexo { 

u 3i = 1,5813 .zcalculo i — 1,7234. zmarketing i — 0,4752 .zfinangas i + 0,5699. zeconomia i 
v 3 { — 0,7182 .zfaltas { +0,9456 .zhoras i —0,6889 .zsexo i 
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d. As correlates canonicas entre u x e v (primeira dimensao), entre u 2 e v 2 (segunda dimensao) e entre 
u 3 e v 3 (terceira dimensao) sao, respectivamente, iguais a 0,8365, 0,6658 e 0,0942. 


1 

ul 

vl 

u2 

v2 

u3 

v3 








ul 1 

1.0000 






vl 1 

0.8365 

1.0000 





u2 | 

0.0000 

- 0.0000 

1.0000 




v2 | 

0.0000 

- 0.0000 

0.6658 

1.0000 



u3 | 

0.0000 

0.0000 

0.0000 

0.0000 

1.0000 


v3 | 

0.0000 

- 0.0000 

0.0000 

- 0.0000 

0.0942 

1.0000 


e. Nao. Os resultados dos testes de Wilks’ lambda, Pillai s trace e Lawley-Hotelling trace mostram que 
apenas as duas primeiras correlates canonicas sao estatisticamente significantes, ao nivel de signi- 
ficancia de 5%. Em outras palavras, sao necessarias duas dimensoes para que se descreva a rela^ao 
existente entre as variaveis dependentes calculo, marketing, finangas e economia e as variaveis explicati- 
vas falias, horas e sexo. 


Canonical loadings 

for variable list 1 


1 

1 

2 

3 

zcalculo | 
zmarketing | 
zfinangas | 
zeconomia | 

0.9154 

0.8804 

0.9071 

0.8788 

0.0531 

0.1422 

-0.0882 

0.2090 

0.3981 

-0.4475 

0.3976 

-0.3717 

Canonical loadings 

for variable list 2 


1 

1 

2 

3 

zfaltas | 
zhoras | 
zsexo | 

-0.9412 

0.8968 

0.2496 

-0.2328 

-0.2851 

-0.6340 

0.2447 

0.3384 

-0.7319 


g. A variavel calculo apresenta maior influencia para a forma^ao de u { . Assim, caso fossem estimados qua- 
tro modelos independentes de regressao multipla, aquele com a variavel calculo como dependente 
apresentaria um maior R 2 . Ou seja, a quantidade de faltas a escola ao longo do ano, a quantidade de 
horas semanais de estudo e o sexo do aluno (embora esta ultima variavel nao se mostre estatistica¬ 
mente significante, ao nivel de significance de 5%) influenciam mais significativamente a nota final de 
calculo do que as notas finais das demais disciplinas. 

h. A variavel faltas apresenta maior influencia, em modulo, para a forma^ao de v . Assim, caso fossem 
estimados quatro modelos independentes de regressao multipla, na maioria dos casos a variavel faltas 
seria estatisticamente mais significante (menor valor-P da estatistica t) para explicar o comportamento 
da variavel dependente em questao. Por outro lado, a variavel sexo seria a primeira candidata a ser 
eventualmente excluida de um modelo de regressao, caso este fosse estimado por meio do procedi- 
mento Stepwise, o que realmente faz sentido. 


= (0.^54)^ ^0,8804^^(0.907^-KO.g788y = ^ 

MR uVf = 0,8020.(0,8365) 2 =0,5612 

que indica, para a primeira fun^ao canonica, que 56,12% da variancia das variaveis dependentes sao 
explicados pelas variaveis faltas, horas e sexo. 


= (0.0531) i + (0.1422) 1 ^(-0.0882r + (0,2090)1 = ^ 
MR U2iV2 = 0,0186.(0,6658 f =0,0082 










Resolu<;ao dos Exercicios 1139 


que indica, para a segunda fun^ao canonica, que apenas 0,82% da variancia das variaveis dependen- 
tes e explicado pelas variaveis faltas, horas e sexo. 


.7 77 , \ (0,398l) 2 +(-0,4475) 2 +(0,3976) 2 +(-0,3717) 2 

var(Y I u 3 ) =-—-= 0,1637 

MR Uj = 0,1637.(0,0942) 2 = 0,0015 

que indica, para a terceira fun^ao canonica, que apenas 0,15% da variancia das variaveis dependentes 
e explicado pelas variaveis faltas, horas e sexo. 

Logo, o percentual total de variancia explicada de calculo, marketing, finangas e economia por faltas, ho¬ 
ras e sexo, chamado de medida de redundancia total, e igual a 57,09% (0,5612 + 0,0082 + 0,0015 
= 0,5709). 


Source 

1 

SS 

df 

MS 


Number of obs 
F ( 3, 26) 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 30 

= 12.42 

= 0.0000 
= 0.5890 

= 0.5416 

= 1.9303 

Model 

Residual 

1 

1 

138.85037 

96.8766302 

3 46.2834567 

26 3.72602424 

Total 

1 

235.727 

29 8.12851725 

calculo 

1 

-i _ 

Coef. 

Std. Err 

t 

P>|t| 

[95% Conf. 

Interval] 

faltas 

i 

1 

-.0528725 

.0197942 

-2.67 

0.013 

-.09356 

-.012185 

horas 

1 

.1450165 

.0698315 

2.08 

0.048 

.0014758 

.2885573 

sexo 

1 

-.2478882 

.746964 

-0.33 

0.743 

-1.783295 

1.287518 

_cons 

1 

7.162276 

1.256288 

5.70 

0.000 

4.57994 

9.744613 


Source 

1 

SS 

df 

MS 


Number of obs 
F ( 3, 26) 

Prob > F 
R-squared 

Adj R-squared 
Root MSE 

= 30 

= 10.73 

= 0.0001 
= 0.5531 

= 0.5015 

= 2.4013 

Model 

Residual 

1 

1 

185.548619 

149.918047 

3 

26 

61.8495398 

5.76607874 


Total 

1 

335.466667 

29 

11.5678161 


marketing 

1 

_ j_ 

Coef. 

Std. 

Err. t 

P>|t| 

[95% Conf. 

Interval] 

faltas 

horas 

sexo 

_cons 

i 

1 

1 

1 

1 

-.0766011 

.1050058 

-.2382283 

7.310492 

.0246238 -3.11 
.0868698 1.21 
.9292169 -0.26 
1.562811 4.68 

0.004 

0.238 

0.800 

0.000 

-.127216 

-.0735578 

-2.148261 

4.098088 

-.0259862 

.2835693 

1.671804 

10.5229 


Source j 

SS 

df 

MS 


Number of obs 

= 30 

= 12.00 







Model | 

130.680378 

3 43, 

.560126 


Prob > F 

= 0.0000 

Residual | 

94.3782885 

26 3.62993417 


R-squared 

= 0.5807 






Adj R-squared 

= 0.5323 






Total | 

225.058666 

29 7.76064367 


Root MSE 

= 1.9052 

finangas | 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

faltas | 

-.0403499 

.0195373 

-2.07 

0.049 

-.0805093 

-.0001904 

horas | 

.1736731 

.0689252 

2.52 

0.018 

.0319953 

.3153509 

sexo | 

.1660716 

.7372694 

0.23 

0.824 

-1.349407 

1.681551 

cons | 

6.277444 

1.239983 

5.06 

0.000 

3.728622 

8.826265 


Source 

1 

SS 

df 

MS 


Number of obs = 30 
F( 3, 26) = 11.08 
Prob > F = 0.0001 
R-squared = 0.5610 
Adj R-squared = 0.5104 
Root MSE = 2.1314 

Model 

Residual 

1 

1 

150.955438 

118.11823 

3 50 

26 4. J 

.3184794 

54300883 

Total 

1 

269.073668 

29 9.27840234 

economia 

1 

Coef. 

Std. Err 

t 

P>|t| 

[95% Conf. Interval] 

faltas 

1 

-.0735191 

.0218568 

-3.36 

0.002 

-.1184464 -.0285919 

horas 

1 

.0794529 

.0771082 

1.03 

0.312 

-.0790453 .2379511 

sexo 

1 

-.4548528 

.8247999 

-0.55 

0.586 

-2.150253 1.240548 

__cons 

1 

7.72626 

1.387197 

5.57 

0.000 

4.874836 10.57768 




























1140 Manual de Analise de Dados: Estatfstica e Modelagem Multivariada com Excel®, SPSS® e Stata' 


O valor do percentual total de variancia explicada de calculo , marketing, Jinangas e economia por faltas, 
horas e sexo tambem pode ser obtido pela media dos valores de R 2 das estimates dos quatro mode- 
los de regressao multipla, ou seja, [(0,5890 + 0,5531 + 0,5807 + 0,5610) / 4] = 0,5709. 


2 . 


| Linear combinations for canonical correlations 


Number of obs 

= 100 

1 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

ul | 

zfaturamento | 

.51645 

.1177733 

4.39 

0.000 

.2827623 

.7501378 

ztiquete | 

.5757747 

.1177733 

4.89 

0.000 

.3420869 

.8094624 

vl | 

zatendimento | 

.5043767 

.1358491 

3.71 

0.000 

.2348226 

.7739309 

zsortimento | 

.5587198 

.1358491 

4.11 

0.000 

.2891657 

.828274 

u2 | 

zfaturamento | 

-1.254101 

1.418389 

-0.88 

0.379 

-4.068493 

1.560291 

ztiquete | 

1.227996 

1.418389 

0.87 

0.389 

-1.586396 

4.042387 

v2 | 

zatendimento | 

1.480903 

1.636084 

0.91 

0.368 

-1.765441 

4.727248 

zsortimento | 

-1.461267 

1.636084 

-0.89 

0.374 

-4.707612 

1.785077 




(Standard 

errors 

estimated conditionally) II 

Canonical correlations: 






0.7600 0.0966 






II Tests of significance of all canonical correlations 




Statistic 

dfl 

df2 

F 

Prob>F 

! Wilks' 

lambda 

.418495 

4 

192 

26.1986 

0.0000 e 

Pillai 

s trace 

.586898 

4 

194 

20.1433 

0.0000 a 

I Lawley-Hotelling trace 

1.37663 

4 

190 

32.6949 

0.0000 a 

H Roy's largest root 

1.3672 

2 

97 

66.3092 

0.0000 u 

1 Test of significance of canonical correlations 

1-2 




Statistic 

dfl 

df2 

F 

Prob>F 

| Wilks' 

lambda 

.418495 

4 

192 

26.1986 

0.0000 e 

| Test of significance of canonical correlation 2 





Statistic 

dfl 

df2 

F 

Prob>F 

Wilks’ 

lambda 

.990662 

1 

97 

0.9143 

0.3413 e 



e = exact 

a = approximate 

, u = upper bound on F | 


a. Nao. As variaveis dependentes faturamento e tiquete sao estatisticamente significances, ao nivel de sig¬ 
nificance de 5%, apenas para a forma^ao da variavel canonica u y 

b. Nao. As variaveis explicativas atendimento e sortimento sao estatisticamente significantes, ao nivel de 
significance de 5%, apenas para a forma^ao da variavel canonica v . 

c. Nao. Apenas a primeira correla^ao canonica e estatisticamente significante, ao nivel de significance 
de 5%, ou seja, apenas uma unica dimensao e necessaria para que se descreva a rela^ao existente en- 
tre as variaveis dependentes e as variaveis explicativas. 


Canonical loadings 

for variable list 1 I 

1 

1 

2 

zfaturamento | 
ztiquete | 

0.9054 

0.9247 

-0.4245 

0.3808 

Canonical loadings 

for variable list 2 

1 

1 

2 

zatendimento | 
zsortimento | 

0.9341 

0.9466 

0.3571 

-0.3224 

■i -a 



















Resolugao dos Exercicios 1141 


Caso fossem estimados dois modelos independentes de regressao multipla, aquele com a variavel ti¬ 
quete como dependente apresentaria um maior R 2 , consideradas as variaveis atendimento e sortimento 
como explicativas. 

Embora a variavel sortimento apresente uma influencia para a forma^ao da variavel canonica v x le- 
vemente superior, quando comparada a variavel atendimento , ambas apresentam cargas canonicas 
bastante elevadas, o que representa um forte indicio de que nao serao excluidas dos modelos de 
regressao com as variaveis faturamento ou tiquete como dependentes, caso estes sejam estimados por 
meio do procedimento Stepwise . 


Source 

1 

SS 

df 

MS 


Number of obs 
F( 2, 97) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 100 
= 43.91 

= 0.0000 
= 0.4752 

= 0.4643 

= .73189 

Model 

Residual 

1 

1 

47.0402371 

51.959761 

2 

97 

23.5201185 

.535667639 

Total 

1 

98.9999981 

99 

.99999998 

z faturamento 

1 

Coef. 

Std. 

Err. t 

P>|t| 

[95% Conf. 

Interval] 

zatendimento 

1 

.2863057 

.1150771 2.49 

0.015 

.0579096 

.5147019 

zsortimento 

1 

.4443973 

.1150771 3.86 

0.000 

.2160011 

.6727934 

_cons 

1 

2.13e-09 

.0731893 0.00 

1.000 

-.1452605 

.1452605 


Source 

1 

SS 

df 

MS 


Number of obs 
F( 2 , 97) 

Prob > F 

R-squared 

Adj R-squared 
Root MSE 

= 100 
= 47.57 

= 0.0000 
= 0.4952 

= 0.4848 

= .7178 

Model 

Residual 

1 

1 

49.0217761 

49.9782204 

2 

97 

24.5108881 

.515239385 

Total 

1 

98.9999965 

99 

.999999965 

ztiquete 

1 

Coef. 

Std. 

Err. t 

P>|t| 

[95% Conf. 

Interval] 

zatendimento 

1 

.4089281 

.1128615 3.62 

0.000 

.1849294 

.6329269 

zsortimento 

1 

.3388537 

.1128615 3.00 

0.003 

.1148549 

.5628524 

_cons 

1 

-7.93e-09 

.0717802 -0.00 

1.000 

-.1424638 

.1424638 


Enquanto a percep^ao positiva sobre o sortimento da loja e mais significante para explicar o cres- 
cimento do faturamento anual do grupo supermercadista, a percep^ao positiva sobre a qualidade 
do atendimento no ponto de venda contribui mais significativamente para que seja incrementado 
o tiquete medio de cada compra. 



















APENDICE 


Tabela A Distribuicao F de Snedecor. 

P(f„>F) = 0,10 



Valores crfticos de distribuicao Fde Snedecor 


V 2 

denominador 

Graus de liberdade no numerador ( v ,) 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

39,86 

49,50 

53,59 

55,83 

57,24 

58,20 

58,91 

59,44 

59,86 

60,19 

2 

8,53 

9,00 

9,16 

9,24 

9,29 

9,33 

9,35 

9,37 

9,38 

. 9,39 

3 

5,54 

5,46 

5,39 

5,34 

5,31 

5,28 

5,27 

5,25 

5,24 

5,23 

4 

4,54 

4,32 

4,19 

4,11 

4,05 

4,01 

3,98 

3,95 

3,94 

3,92 

5 

4,06 

3,78 

3,62 

3,52 

3,45 

3,40 

3,37 

3,34 

3,32 

3,30 

6 

3,78 

3,46 

3,29 

3,18 

3,11 

3,05 

3,01 

2,98 

2,96 

2,94 

7 

3,59 

3,26 

3,07 

2,96 

2,88 

2,83 

2,78 

2,75 

2,72 

2,70 

8 

3,46 

3,11 

2,92 

2,81 

2,73 

2,67 

2,62 

2,59 

2,56 

2,54 

9 

3,36 

3,01 

2,81 

2,69 

2,61 

2,55 

2,51 

2,47 

2,44 

2,42 

10 

3,29 

2,92 

2,73 

2,61 

2,52 

2,46 

2,41 

2,38 

2,35 

2,32 

11 

3,23 

2,86 

2,66 

2,54 

2,45 

2,39 

2,34 

2,30 

2,27 

2,25 

12 

3,18 

2,81 

2,61 

2,48 

2,39 

2,33 

2,28 

2,24 

2,21 

2,19 

13 

3,14 

2,76 

2,56 

2,43 

2,35 

2,28 

2,23 

2,20 

2,16 

2,14 

14 

3,10 

2,73 

2,52 

2,39 

2,31 

2,24 

2,19 

2,15 

2,12 

2,10 

15 

3,07 

2,70 

2,49 

2,36 

2,27 

2,21 

2,16 

2,12 

2,09 

2,06 

16 

3,05 

2,67 

2,46 

2,33 

2,24 

2,18 

2,13 

2,09 

2,06 

2,03 

17 

3,03 

2,64 

2,44 

2,31 

2,22 

2,15 

2,10 

2,06 

2,03 

2,00 

18 

3,01 

2,62 

2,42 

2,29 

2,20 

2,13 

2,08 

2,04 

2,00 

1,98 

19 

2,99 

2,61 

2,40 

2,27 

2,18 

2,11 

2,06 

2,02 

1,98 

1,96 

20 

2,97 

2,59 

2,38 

2,25 

2,16 

2,09 

2,04 

2,00 

1,96 

1,94 

21 

2,96 

2,57 

2,36 

2,23 

2,14 

2,08 

2,02 

1,98 

1,95 

1,92 

22 

2,95 

2,56 

2,35 

2,22 

2,13 

2,06 

2,01 

1,97 

1,93 

1,90 

23 

2,94 

2,55 

2,34 

2,21 

2,11 

2,05 

1,99 

1,95 

1,92 

1,89 

24 

2,93 

2,54 

2,33 

2,19 

2,10 

2,04 

1,98 

1,94 

1,91 

1,88 

25 

2,92 

2,53 

2,32 

2,18 

2,09 

2,02 

1,97 

1,93 

1,89 

1,87 

26 

2,91 

2,52 

2,31 

2,17 

2,08 

2,01 

1,96 

1,92 

1,88 

1,86 

27 

2,90 

2,51 

2,30 

2,17 

2,07 

2,00 

1,95 

1,91 

1,87 

1,85 

28 

2,89 

2,50 

2,29 

2,16 

2,06 

2,00 

1,94 

1,90 

1,87 

1,84 

29 

2,89 

2,50 

2,28 

2,15 

2,06 

1,99 

1,93 

1,89 

1,86 

1,83 

30 

2,88 

2,49 

2,28 

2,14 

2,05 

1,98 

1,93 

1,88 

1,85 

1,82 

35 

2,85 

2,46 

2,25 

2,11 

2,02 

1,95 

1,90 

1,85 

1,82 

1,79 

40 

2,84 

2,44 

2,23 

2,09 

2,00 

1,93 

1,87 

1,83 

1,79 

1,76 

45 

2,82 

2,42 

2,21 

2,07 

1,98 

1,91 

1,85 

1,81 

1,77 

1,74 

50 

2,81 

2,41 

2,20 

2,06 

1,97 

1,90 

1,84 

1,80 

1,76 

1,73 

100 

2,76 

2,36 

2,14 

2,00 

1,91 

1,83 

1,78 

1,73 

1,69 

1,66 


(continua) 






1144 Manual de Analise de Dados: Estatfstica e Modelagem Multivariada com Excel®, SPSS® e Stata 


Tabela A Distribui^ao F de Snedecor. 

P(F cal >F c ) = 0,05 



Valores criticos de distribute) Fde Snedecor 


V 2 

denominador 

Graus de liberdade no numerador (v^ 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

161,45 

199,50 

215,71 

224,58 

230,16 

233,99 

236,77 

238,88 

240,54 

241,88 

2 











3 

10,13 

9,55 

9,28 

9,12 

9,01 

8,94 

8,89 

8,85 

8,81 

8,79 

4 

7,71 

6,94 

6,59 

6,39 

6,26 

6,16 

6,09 

6,04 

6,00 

5,96 

5 

6,61 

5,79 

5,41 

5,19 

5,05 

4,95 

4,88 

4,82 

4,77 

4,74 

6 

5,99 

5,14 

4,76 

4,53 

4,39 

4,28 

4,21 

4,15 

4,10 

4,06 

7 

5,59 

4,74 

4,35 

4,12 

3,97 

3,87 

3,79 

3,73 

3,68 

3,64 

8 

5,32 

4,46 

4,07 

3,84 

3,69 

3,58 

3,50 

3,44 

3,39 

3,35 

9 

5,12 

4,26 

3,86 

3,63 

3,48 

3,37 

3,29 

3,23 

3,18 

3,14 

10 

4,96 

4,10 

3,71 

3,48 

3,33 

3,22 

3,14 

3,07 

3,02 

2,98 

11 

4,84 

3,98 

3,59 

3,36 

3,20 

3,09 

3,01 

2,95 

2,90 

2,85 

12 

4,75 

3,89 

3,49 

3,26 

3,11 

3,00 

2,91 

2,85 

2,80 

2,75 

13 

4,67 

3,81 

3,41 

3,18 

3,03 

2,92 

2,83 

2,77 

2,71 

2,67 

14 

4,60 

3,74 

3,34 

3,11 

2,96 

2,85 

2,76 

2,70 

2,65 

2,60 

15 

4,54 

3,68 

3,29 

3,06 

2,90 

2,79 

2,71 

2,64 

2,59 

2,54 

16 

4,49 

3,63 

3,24 

3,01 

2,85 

2,74 

2,66 

2,59 

2,54 

2,49 

17 

4,45 

3,59 

3,20 

2,96 

2,81 

2,70 

2,61 

2,55 

2,49 

2,45 

18 

4,41 

3,55 

3,16 

2,93 

2,77 

2,66 

2,58 

2,51 

2,46 

2,60 

19 

4,38 

3,52 

3,13 

2,90 

2,74 

2,63 

2,54 

2,48 

2,42 

2,38 

20 

4,35 

3,49 

3,10 

2,87 

2,71 

2,60 

2,51 

2,45 

2,39 

2,35 

21 

4,32 

3,47 

3,07 

2,84 

2,68 

2,57 

2,49 

2,42 

2,37 

2,32 

22 

4,30 

3,44 

3,05 

2,82 

2,66 

2,55 

2,46 

2,40 

2,34 

2,30 

23 

4,28 

3,42 

3,03 

2,80 

2,64 

2,53 

2,44 

2,37 

2,32 

2,27 

24 

4,26 

3,40 

3,01 

2,78 

2,62 

2,51 

2,42 

2,36 

2,30 

2,25 

25 

4,24 

3,39 

2,99 

2,76 

2,00 

2,49 

2,40 

2,34 

2,28 

2,24 

26 

4,23 

3,37 

2,98 

2,74 

2,59 

2,47 

2,39 

2,32 

2,27 

2,22 

27 

4,21 

3,35 

2,96 

2,73 

2,57 

2,46 

2,37 

2,31 

2,25 

2,20 

28 

4,20 

3,34 

2,95 

2,71 

2,56 

2,45 

2,36 

2,29 

2,24 

2,19 

29 

4,18 

3,33 

2,93 

2,70 

2,55 

2,43 

2,35 

2,28 

2,22 

2,18 

30 

4,17 

3,32 

2,92 

2,69 

2,53 

2,42 

2,33 

2,27 

2,21 

2,16 

35 

4,12 

3,27 

2,87 

2,64 

2,49 

2,37 

2,29 

2,22 

2,16 

2,11 

40 

4,08 

3,23 

2,84 

2,61 

2,45 

2,34 

2,25 

2,18 

2,12 

2,08 

45 

4,06 

3,20 

2,81 

2,58 

2,42 

2,31 

2,22 

2,15 

2,10 

2,05 

50 

4,03 

3,18 

2,79 

2,56 

2,40 

2,29 

2,20 

2,13 

2,07 

2,03 

100 

3,94 

3,09 

2,70 

2,46 

2,31 

2,19 

2,10 

2,03 

1,97 

1,93 


{continua) 
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Tabela A Distribui<;ao F de Snedecor. 

P(F cal >F c ) = 0,025 



Valores criticos de distribui^ao F de Snedecor 


V 2 

denominador 

Graus de liberdade no numerador (v n ) 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

647,8 

799,5 

864,2 

899,6 

921,8 

937,1 

948,2 

956,7 

963,3 

963,3 

2 

38,51 

39,00 

39,17 

39,25 

39,30 

39,33 

39,36 

39,37 

39,39 

39,40 

3 

17,44 

16,04 

15,44 

15,10 

14,88 

14,73 

14,62 

14,54 

14,47 

14,42 

4 

12,22 

10,65 

9,98 

9,60 

9,36 

9,20 

9,07 

8,98 

8,90 

3,84 

5 

10,01 

8,43 

7,76 

7,39 

7,15 

6,98 

6,85 

6,76 

6,68 

6,62 

6 

8,81 

7,26 

6,60 

6,23 

5,99 

5,82 

5,70 

5,60 

5,52 

5,46 

7 

8,07 

6,54 

5,89 

5,52 

5,29 

5,12 

4,99 

4,90 

4,82 

4,76 

8 

7,57 

6,06 

5,42 

5,05 

4,82 

4,65 

4,53 

4,43 

4,36 

4,30 

9 

7,21 

5,71 

5,08 

4,72 

4,48 

4,32 

4,20 

4,10 

4,03 

3,96 

10 

6,94 

5,46 

4,83 

4,47 

4,24 

4,07 

3,95 

3,85 

3,78 

3,72 

11 

6,72 

5,26 

4,63 

4,28 

4,04 

3,88 

3,76 

3,66 

3,59 

3,53 

12 

6,55 

5,10 

4,47 

4,12 

3,89 

3,73 

3,61 

3.51 

3,44 

3,37 

13 

6,41 

4,97 

4,35 

4,00 

3,77 

3,60 

3,48 

3.39 

3,31 

3,25 

14 

6,30 

4,86 

4,24 

3.89 

3,66 

3,50 

3,38 

3,29 

3,21 

3,15 

15 

6,20 

4,77 

4,15 

3,80 

3,58 

3,41 

3,29 

3,20 

3,12 

3,06 

16 

6,12 

4,69 

4,08 

3,73 

3,50 

3,34 

3,22 

3,12 

3,05 

2,99 

17 

6,04 

4,62 

4,01 

3,66 

3,44 

3,28 

3,16 

3,06 

2,98 

2,92 

18 

5,98 

4,56 

3,95 

3,61 

3,38 

3,22 

3,10 

3,01 

2,93 

2,87 

19 

5,92 

4,51 

3,90 

3,56 

3,33 

.. 

3,17 

3,05 

2,96 

2,88 

2,82 

20 

5,87 

4,46 

3,86 

3,51 

3,29 | 

3,13 

3,01 

2,91 

2,84 

2,77 

21 

5,83 

4,42 

3,82 

3,48 

3,25 

3,09 

2,97 

2,87 

2,80 

2,73 

22 

5,79 

4,38 

3,78 

3,44 

3,22 

3,05 

2,93 

2,84 

2,76 

2,70 

23 

5,75 

4,35 

3,75 

3,41 

3,18 i 

3,02 

2,90 

2,81 

2,73 

2,67 

24 

5,72 

4,32 

3,72 

3,38 

3,15 

2,99 

2,87 

2,78 

2,70 

2,64 

25 

5,69 

4,29 

3,69 

3,35 

3,13 

2,97 

2,85 

2,75 

2,68 

2,61 

26 

5,66 

4,27 

3,67 

3,33 

3,10 

2,94 

2,82 

2,73 

2,65 

2,59 

27 

5,63 

4,24 

3,65 

3,31 

3,08 

2,92 

2,80 

2,71 

2,63 

2,57 

28 

5,61 

4,22 

3,63 

3,29 

3,06 

2,90 

2,78 

2,69 

2,61 

2,55 

29 

5,59 

4,20 

3,61 

3,27 

3,04 

2,88 

2,76 

2,67 

2,59 

2,53 

30 

5,57 

4,18 

3,59 

3,25 

3,03 

2,87 

2,75 

2,65 

2,57 

2,51 

40 

5,42 

4,05 

3,46 

3,13 

2,90 

2,74 

2,62 

2,53 

2,45 

2,39 

60 

5,29 

3,93 

3,34 

3,01 

2,79 

2,63 

2,51 

2,41 

2,33 

2,27 

120 

5,15 

3,80 

3,23 

2,89 

2,67 

2,52 

2,39 

2,30 

2,22 

2,16 


(continua) 
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Tabela A Distribute) F de Snedecor. 
w ca/ >F)=aoi 
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Tabela C Distribui^ao de Durbin-Watson (DW). 



modelos com intercepto 
nivel de significancia a= 5% 



k (numero de parametros - Indui intercepto ) 

n 

2 

3 

4 

5 

6 

7 

8 

9 

10 


d L 

d u 

d L 

d u 

d L 

du 

d L 

du 

d L 

du 

d L 

du 

d L 

du 

d L 

du 

d L 

d u 

6 

0,610 

1,400 

- 

- 

- 

~ 

- 

- 

- 

- 

- 

- 

- 

- 

- 

' - 

- 

- 

7 

0,700 

1,356 

0,467 

1,896 

- 

- 

- 

- 

- 

- 

- 

- 

- 

- 

- 

- 

- 

- 

8 

0,763 

1,332 

0,559 

1,777 

0,367 

2,287 

- 

- 

- 

- 

- 

- 

- 

- 

- 

- 

- 

- 

9 

0,824 

1,320 

0,629 

1,699 

0,455 

2,128 

0,296 

2,588 

- 

- 

- 

- 

- 

- 

- 

- 

- 

- 

10 

0,879 

1,320 

0,697 

1,641 

0,525 

2,016 

0,376 

2,414 

0,243 

2,822 

- 

- 

- 

- 


- 

- 

- 

11 

0,927 

1,324 

0,758 

1,604 

0,595 

1,928 

0,444 

2,283 

0,315 

2,645 

0,203 

3,004 

- 

- 


- 

- 

- 

12 

0,971 

1,331 

0,812 

1,579 

0,658 

1,864 

0,512 

2,177 

0,380 

2,506 

0,268 

2,832 

0,171 

3,149 

- 

- 

- 

- 

13 

1,010 

0,861 

0,861 

1,562 

0,715 

1,816 

0,574 

2,094 

0,444 

2,390 

0,328 

2,692 

0,230 

2,985 

0,147 

3,266 

- 

- 

14 

1,045 

1,350 

0,905 

1,551 

0,767 

1,779 

0,632 

2,030 

0,505 

2,296 

0,389 

2,572 

0,286 

2,848 

0,200 

3,111 

0,127 

3,360 

15 

1,077 

1,361 

0,946 

1,543 

0,814 

1,750 

0,685 

1,977 

0,562 

2,220 

0,447 

2,471 

0,343 

2,727 

0,251 

2,979 

0,175 

3,216 

16 

1,106 

1,371 

0,982 

1,539 

0,857 

1,728 

0,734 

1,935 

0,615 

2,157 

0,502 

2,388 

0,398 

2,624 

0,304 

2,860 

0,222 

3,090 

17 

1,133 

1,381 

1,015 

1,536 

0,897 

1,710 

0,779 

1,900 

0,664 

2,104 

0,554 

2,318 

0,451 

2,537 

0,356 

2,757 

0,272 

2,975 

18 

1,158 

1,391 

1,046 

1,535 

0,933 

1,696 

0,820 

1,872 

0,710 

2,060 

0,603 

2,258 

0,502 

2,461 

0,407 

2,668 

0,321 

2,873 

19 

1,180 

1,401 

1,074 

1,536 

0,967 

1,685 

0,859 

1,848 

0,752 

2,023 

0,649 

2,206 

0,549 

2,396 

0,456 

2,589 

0,369 

2,783 

20 

1,201 

1,411 

1,100 

1,537 

0,998 

1,676 

0,894 

1,828 

0,792 

1,991 

0,691 

2,162 

0,595 

2,339 

0,502 

2,521 

0,416 

2,704 

21 

1,221 

1,420 

1,125 

1,538 

1,026 

1,669 

0,927 

1,812 

0,829 

1,964 

0,731 

2,124 

0,637 

2,290 

0,546 

2,461 

0,461 

2,633 

22 

1,239 

1,429 

1,147 

1,541 

1,053 

1,664 

0,958 

1,797 

0,863 

1,940 

0,769 

2,090 

0,677 

1,246 

0,588 

2,407 

0,504 

2,571 

23 

1,257 

1,437 

1,168 

1,543 

1,078 

1,660 

0,986 

1,785 

0,895 

1,920 

0,804 

2,061 

0,715 

2,208 

0,628 

2,360 

0,545 

2,514 

24 

1,273 

1,446 

1,188 

1,546 

1,101 

1,656 

1,013 

1,775 

0,925 

1,902 

0,837 

2,035 

0,750 

2,174 

0,666 

2,318 

0,584 

2,464 

25 

1,288 

1,454 

1,206 

1,550 

1,123 

1,654 

1,038 

1,767 

0,953 

1,886 

0,868 

2,013 

0,784 

2,144 

0,702 

2,280 

0,621 

2,419 

26 

1,302 

1,461 

1,224 

1,553 

1,143 

1,652 

1,062 

1,759 

0,979 

1,873 

0,897 

1,992 

0,816 

2,117 

0,735 

2,246 

0,657 

2,379 

27 

1,316 

1,469 

1,240 

1,556 

1,162 

1,651 

1,084 

1,753 

1,004 

1,861 

0,925 

1,974 

0,845 

2,093 

0,767 

2,216 

0,691 

2,342 

28 

1,328 

1,476 

1,255 

1,560 

1,1181 

1,650 

1,104 

1,747 

1,028 

1,850 

0,951 

1,959 

0,874 

2,071 

0,798 

2,188 

0,723 

2,309 

29 

1,341 

1,483 

1,270 

1,563 

1,198 

1,650 

1,124 

1,743 

1,050 

1,841 

0,975 

1,944 

0,900 

2,052 

0,826 

2,164 

0,753 

2,278 

30 

1,352 

1,489 

1,284 

1,567 

1,214 

1,650 

1,143 

1,739 

1,071 

1,833 

0,998 

1,931 

0,926 

2,034 

0,854 

2,141 

0,782 

2,251 

31 

1,363 

1,496 

1,297 

1,570 

1,229 

1,650 

1,160 

1,735 

1,090 

1,825 

1,020 

1,920 

0,950 

2,018 

0,879 

2,120 

0,810 

2,226 

32 

1,373 

1,502 

1,309 

1,574 

1,244 

1,650 

1,177 

1,732 

1,109 

1,819 

1,041 

1,909 

0,972 

2,004 

0,904 

2,102 

0,836 

2,203 

33 

1,383 

1,508 

1,321 

1,577 

1,258 

1,651 

1,193 

1,730 

1,127 

1,813 

1,061 

1,900 

0,994 

1,991 

0,927 

20,85 

0,861 

2,181 

34 

1,393 

1,514 

1,333 

1,580 

1,271 

1,652 

1,208 

1,728 

1,144 

1,808 

1,079 

1,891 

1,015 

1,978 

0,950 

2,069 

0,885 

2,162 

35 

1,402 

1,519 

1,343 

1,584 

1,283 

1,653 

1,222 

1,726 

1,160 

1,803 

1,097 

1,884 

1,034 

1,967 

0,971 

2,054 

0,908 

2,144 

36 

1,411 

1,525 

1,354 

1,587 

1,295 

1,654 

1,236 

1,724 

1,175 

1,799 

1,114 

1,876 

1,053 

1,957 

0,991 

2,041 

0,930 

2,127 

37 

1,419 

1,530 

1,364 

1,590 

1,307 

1,655 

1,249 

1,723 

1,190 

1,795 

1,131 

1,870 

1,071 

1,948 

1,011 

2,029 

0,951 

2,112 

38 

1,427 

1,535 

1,373 

1,594 

1,318 

1,656 

1,261 

1,722 

1,204 

1,792 

1,146 

1,864 

1,088 

1,939 

1,029 

2,017 

0,970 

2,098 

39 

1,435 

1,540 

1,382 

1,597 

1,328 

1,658 

1,273 

1,722 

1,218 

1,789 

1,161 

1,859 

1,104 

1,932 

1,047 

2,007 

0,990 

2,085 

40 

1,442 

1,544 

1,391 

1,600 

1,338 

1,659 

1,285 

1,721 

1,230 

1,786 

1,175 

1,854 

1,120 

1,924 

1,064 

1,997 

1,008 

2,072 

45 

1,475 

1,566 

1,430 

1,615 

1,383 

1,666 

1,336 

1,720 

1,287 

1,776 

1,238 

1,835 

1,189 

1,895 

1,139 

1,958 

1,089 

2,022 

50 

1,503 

1,585 

1,462 

1,628 

1,421 

1,674 

1,378 

1,721 

1,335 

1,771 

1,291 

1,822 

1,246 

1,875 

1,201 

1,930 

1,156 

1,986 

55 

1,528 

1,601 

1,490 

1,641 

1,452 

1,611 

1,414 

1,724 

1,374 

1,768 

1,334 

1,814 

1,294 

1,861 

1,253 

1,909 

1,212 

1,959 

60 

1,549 

1,616 

1,514 

1,652 

1,480 

1,689 

1,444 

1,727 

1,408 

1,767 

1,372 

1,808 

1,335 

1,850 

1,298 

1,894 

1,260 

1,939 

65 

1,567 

1,629 

1,536 

1,662 

1,503 

1,696 

1,471 

1,731 

1,438 

1,767 

1,404 

1,805 

1,170 

1,843 

1,336 

1,882 

1,301 

1,923 

70 

1,583 

1,641 

1,554 

1,672 

1,525 

1,703 

1,494 

1,735 

1,464 

1,768 

1,433 

1,802 

1,401 

1,838 

1,369 

1,874 

1,337 

1,910 

75 

1,598 

1,652 

1,571 

1,680 

1,543 

1,709 

1,515 

1,739 

1,487 

1,770 

1,458 

1,801 

1,428 

1,834 

1,399 

1,867 

1,369 

1,901 

80 

1,611 

1,662 

1,586 

1,688 

1,560 

1,715 

1,534 

1,743 

1,507 

1,772 

1,480 

1,801 

1,453 

1,831 

1,425 

1,861 

1,397 

1,893 

85 

1,624 

1,671 

1,600 

1,696 

1,575 

1,721 

1,550 

1,747 

1,525 

1,774 

1,500 

1,801 

1,474 

1,829 

1,448 

1,857 

1,422 

1,886 

90 

1,635 

1,679 

1,612 

1,703 

1,589 

1,726 

1,566 

1,751 

1,542 

1,776 

1,518 

1,801 

1,494 

1,827 

1,469 

1,854 

1,445 

1,881 

95 

1,645 

1,687 

1,623 

1,709 

1,602 

1,732 

1,579 

1,755 

1,557 

1,778 

1,535 

1,802 

1,512 

1,827 

1,489 

1,852 

1,465 

1,877 

100 

1,654 

1,694 

1,634 

1,715 

1,613 

1,736 

1,592 

1,758 

1,571 

1,780 

1,550 

1,803 

1,528 

1,827 

1,489 

1,852 

1,465 

1,877 

150 

1,720 

1,747 

1,706 

1,760 

1,693 

1,774 

1,679 

1,788 

1,665 

1,802 

1,651 

1,817 

1,637 

1,832 

1,622 

1,846 

1,608 

1,862 

200 

1,758 

1,779 

1,748 

1,789 

1,738 

1,799 

1,728 

1,809 

1,718 

1,820 

1,707 

1,831 

1,697 

1,841 

1,686 

1,852 

1,675 

1,863 
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Tabela D Distribute* qui-quadrado. 


P (xla , com vgraus de liberdade > % 2 C ) = a 



Valores criticos (unilaterais a direita) da distribute* qui-quadrado 


Graus de 
liberdade v 

0,99 

0,975 

0,95 

0,9 

0,1 

0,05 

0,025 

0,01 

0,005 

1 

0,000 

0,001 

0,004 

0,016 

2,706 

3,841 

5,024 

6,635 

7,879 

2 

0,020 

0,051 

0,103 

0,211 

4,605 

5,991 

7,378 

9,210 

10,597 

3 

0,115 

0,216 

0,352 

0,584 

6,251 

7,815 

9,348 

11,345 

12,838 

4 

0,297 

0,484 

0,711 

1,064 

7,779 

9,488 

11,143 

13,277 

14,860 

5 

0,554 

0,831 

1,145 

1,610 

9,236 

11,070 

12,832 

15,086 

16,750 

6 

0,872 

1,237 

1,635 

2,204 

10,645 

12,592 

14,449 

16,812 

18,548 

7 

1,239 

1,690 

2,167 

2,833 

12,017 

14,067 

16,013 

18,475 

20,278 

8 

1,647 

2,180 

2,733 

3,490 

13,362 

15,507 

17,535 

20,090 

21,955 

9 

2,088 

2,700 

3,325 

4,168 

14,684 

16,919 

19,023 

21,666 

23,589 

10 

2,558 

3,247 

3,940 

4,865 

15,987 

18,307 

20,483 

23,209 

25,188 

11 

3,053 

3,816 

4,575 

5,578 

17,275 

19,675 

21,920 

24,725 

26,757 

12 

3,571 

4,404 

5,226 

6,304 

18,549 

21,026 

23,337 

26,217 

28,300 

13 

4,107 

5,009 

5,892 

7,041 

19,812 

22,362 

24,736 

27,688 

29,819 

14 

4,660 

5,629 

6,571 

7,790 

21,064 

23,685 

26,119 

29,141 

31,319 

15 

5,229 

6,262 

7,261 

8,547 

22,307 

24,996 

27,488 

30,578 

32,801 

16 

5,812 

6,908 

7,962 

9,312 

23,542 

26,296 

28,845 

32,000 

34,267 

17 

6,408 

7,564 

8,672 

10,085 

24,769 

27,587 

30,191 

33,409 

35,718 

18 

7,015 

8,231 

9,390 

10,865 

25,989 

28,869 

31,526 

34,805 

37,156 

19 

7,633 

8,907 

10,117 

11,651 

27,204 

30,144 

32,852 

36,191 

38,582 

20 

8,260 

9,591 

10,851 

12,443 

28,412 

31,410 

34,170 

37,566 

39,997 

21 

8,897 

10,283 

11,591 

13,240 

29,615 

32,671 

35,479 

38,932 

41,401 

22 

9,542 

10,982 

12,338 

14,041 

30,813 

33,924 

36,781 

40,289 

42,796 

23 

10,196 

11,689 

13,091 

14,848 

32,007 

35,172 

38,076 

41,638 

44,181 

24 

10,856 

12,401 

13,848 

15,659 

33,196 

36,415 

39,364 

42,980 

45,558 

25 

11,524 

13,120 

14,611 

16,473 

34,382 

37,652 

40,646 

44,314 

46,928 

26 

12,198 

13,844 

15,379 

17,292 

35,563 

38,885 

41,923 

45,642 

48,290 

27 

12,878 

14,573 

16,151 

18,114 

36,741 

40,113 

43,195 

46,963 

49,645 

28 

13,565 

15,308 

16,928 

18,939 

37,916 

41,337 

44,461 

48,278 

50,994 

29 

14,256 

16,047 

17,708 

19,768 

39,087 

42,557 

45,722 

49,588 

52,335 

30 

14,953 

16,791 

18,493 

20,599 

40,256 

43,773 

46,979 

50,892 

53,672 

31 

15,655 

17,539 

19,281 

21,434 

41,422 

44,985 

48,232 

52,191 

55,002 

32 

16,362 

18,291 

20,072 

22,271 

42,585 

46,194 

49,480 

53,486 

56,328 

33 

17,073 

19,047 

20,867 

23,110 

43,745 

47,400 

50,725 

54,775 

57,648 

34 

17,789 

19,806 

21,664 

23,952 

44,903 

48,602 

51,966 

56,061 

58,964 

35 

18,509 

20,569 

22,465 

24,797 

46,059 

49,802 

53,203 

57,342 

60,275 

36 

19,233 

21,336 

23,269 

25,643 

47,212 

50,998 

54,437 

58,619 

61,581 

37 

19,960 

22,106 

24,075 

26,492 

48,363 

52,192 

55,668 

59,893 

62,883 

38 

20,691 

22,878 

24,884 

27,343 

49,513 

53,384 

56,895 

61,162 

64,181 

39 

21,426 

23,654 

25,695 

28,196 

50,660 

54,572 

58,120 

62,428 

65,475 

40 

22,164 

24,433 

26,509 

29,051 

51,805 

55,758 

59,342 

63,691 

66,766 

41 

22,906 

25,215 

27,326 

29,907 

52,949 

56,942 

60,561 

64,950 

68,053 

42 

23,650 

25,999 

28,144 

30,765 

54,090 

58,124 

61,777 

66,206 

69,336 

43 

24,398 

26,785 

28,965 

31,625 

55,230 

59,304 

62,990 

67,459 

70,616 

44 

25,148 

27,575 

29,787 

32,487 

56,369 

60,481 

64,201 

68,710 

71,892 

45 

25,901 

28,366 

30,612 

33,350 

57,505 

61,656 

65,410 

69,957 

73,166 

46 

26,657 

29,160 

31,439 

34,215 

58,641 

62,830 

66,616 

71,201 

74,437 

47 

27,416 

29,956 

32,268 

35,081 

59,774 

64,001 

67,821 

72,443 

75,704 

48 

28,177 

30,754 

33,098 

35,949 

60,907 

65,171 

69,023 

73,683 

76,969 

49 

28,941 

31,555 

33,930 

36,818 

62,038 

66,339 

70,222 

74,919 

78,231 

50 

29,707 

32,357 

34,764 

37,689 

63,167 

67,505 

71,420 

76,154 

79,490 
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Tabela E Distribuigao normal padrao. 

P ( Z ca,> Z ) = a 



Probabilidades associadas na cauda superior 



Segunda decimal dez c 

z 

c 

0,00 

0,01 

0,02 

0,03 

0,04 

0,05 

0,06 

0,07 

0,08 

0,09 

0,0 

0,5000 

0,4960 

0,4920 

0,4880 

0,4840 

0,4801 

0,4761 

0,4721 

0,4681 

0,4641 

0,1 

0,4602 

0,4562 

0,4522 

0,4483 

0,4443 

0,4404 

0,4364 

0,4325 

0,4286 

0,4247 

0,2 

0,4207 

0,4168 

0,4129 

0,4090 

0,4052 

0,4013 

0,3974 

0,3936 

0,3897 

0,3859 

0,3 

0,3821 

0,3783 

0,3745 

0,3707 

0,3669 

0,3632 

0,3594 

0,3557 

0,3520 

0,3483 

0,4 

0,3446 

0,3409 

0,3372 

0,3336 

0,3300 

0,3264 

0,3228 

0,3192 

0,3156 

0,3121 


0,5 

0,3085 

0,3050 

0,3015 

0,2981 

0,2946 

0,2912 

0,2877 

0,2842 

0,2810 

0,2776 

0,6 

0,2743 

0,2709 

0,2676 

0,2643 

0,2611 

0,2578 

0,2546 

0,2514 

0,2483 

0,2451 

0,7 

0,2420 

0,2389 

0,2358 

0,2327 

0,2296 

0,2266 

0,2236 

0,2206 

0,2177 

0,2148 

0,8 

0,2119 

0,2090 

0,2061 

0,2033 

0,2005 

0,1977 

0,1949 

0,1922 

0,1894 

0,1867 

0,9 

0,1841 

0,1814 

0,1788 

0,1762 

0,1736 

0,1711 

0,1685 

0,1660 

0,1635 

0,1611 


1,0 

0,1587 

0,1562 

0,1539 

0,1515 

0,1492 

0,1469 

0,1446 

0,1423 

0,1401 

0,1379 

1,1 

0,1357 

0,1335 

0,1314 

0,1292 

0,1271 

0,1251 

0,1230 

0,1210 

0,1190 

0,1170 

1,2 

0,1151 

0,1131 

0,1112 

0,1093 

0,1075 

0,1056 

0,1038 

0,1020 

0,1003 

0,0985 

1,3 

0,0968 

0,0951 

0,0934 

0,0918 

0,0901 

0,0885 

0,0869 

0,0853 

0,0838 

0,0823 

1,4 

0,0808 

0,0793 

0,0778 

0,0764 

0,0749 

0,0735 

0,0722 

0,0708 

0,0694 

0,0681 


1/5 

0,0668 

0,0655 

0,0643 

0,0630 

0,0618 

0,0606 

0,0594 

0,0582 

0,0571 

0,0559 

1/6 

0,0548 

0,0537 

0,0526 

0,0516 

0,0505 

0,0495 

0,0485 

0,0475 

0,0465 

0,0455 

1/7 

0,0446 

0,0436 

0,0427 

0,0418 

0,0409 

0,0401 

0,0392 

0,0384 

0,0375 

0,0367 

1/8 

0,0359 

0,0352 

0,0344 

0,0336 

0,0329 

0,0322 

0,0314 

0,0307 

0,0301 

0,0294 

1,9 

0,0287 

0,0281 

0,0274 

0,0268 

0,0262 

0,0256 

0,0250 

0,0244 

0,0239 

0,0233 


2/0 

0,0228 

0,0222 

0,0217 

0,0212 

0,0207 

0,0202 

0,0197 

0,0192 

0,0188 

0,0183 

2/1 

0,0179 

0,0174 

0,0170 

0,0166 

0,0162 

0,0158 

0,0154 

0,0150 

0,0146 

0,0143 

2,2 

0,0139 

0,0136 

0,0132 

0,0129 

0,0125 

0,0122 

0,0119 

0,0116 

0,0113 

0,0110 

2,3 

0,0107 

0,0104 

0,0102 

0,0099 

0,0096 

0,0094 

0,0091 

0,0089 

0,0087 

0,0084 

2,4 

0,0082 

0,0080 

0,0078 

0,0075 

0,0073 

0,0071 

0,0069 

0,0068 

0,0066 

0,0064 


2,5 

0,0062 

0,0060 

0,0059 

0,0057 

0,0055 

0,0054 

0,0052 

0,0051 

0,0049 

0,0048 

2/6 

0,0047 

0,0045 

0,0044 

0,0043 

0,0041 

0,0040 

0,0039 

0,0038 

0,0037 

0,0036 

2,7 

0,0035 

0,0034 

0,0033 

0,0032 

0,0031 

0,0030 

0,0029 

0,0028 

0,0027 

0,0026 

2,8 

0,0026 

0,0025 

0,0024 

0,0023 

0,0023 

0,0022 

0,0021 

0,0021 

0,0020 

0,0019 

2,9 

0,0019 

0,0018 

0,0017 

0,0017 

0,0016 

0,0016 

0,0015 

0,0015 

0,0014 

0,0014 


3,0 

0,0013 

0,0013 

0,0013 

0,0012 

0,0012 

0,0011 

0,0011 

0,0011 

0,0010 

0,0010 

3,1 

0,0010 

0,0009 

0,0009 

0,0009 

0,008 

0,0008 

0,0008 

0,0008 

0,007 

0,007 

3,2 

0,0007 










3,3 

0,0005 










3,4 

0,0003 











3,5 

0,00023 










3,6 

0,00016 










3,7 

0,00011 










3,8 

0,00007 










3,9 

0,00005 
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Tabela F 1 Distribute) binominal. 


P[Y=k] = 



p k 0 — p) 


N-K 


A virgula decimal foi omitida.Todas as entradas devem ser lidas como ,nnn. 
Para valores de p < 0,5 use a linha do topo para pea coluna esquerda para k. 
Para valores de p > 0,5 use a linha da base para pea coluna direita para k. 




P 



N 

k 

0,01 

0,05 

0,10 

0,15 

0,20 

0,25 

0,30 

1/3 

0,40 

0,45 

0,50 



2 

0 

9801 

9025 

8100 

7225 

6400 

5625 

4900 

4444 

3600 

3025 

2500 

2 

2 


1 

198 

950 

1800 

2550 

3200 

3750 

4200 

4444 

4800 

4950 

5000 

1 



2 

_L^ 

25 

100 

225 

400 

625 

900 

1111 

1600 

2025 

2500 

0 



3 

0 

9703 

8574 

7290 

6141 

5120 

4219 

3430 

2963 

2160 

1664 

1250 

3 

3 


1 

294 

1354 

2430 

3251 

3840 

4219 

4410 

4444 

4320 

4084 

3750 

2 



2 

3 

71 

270 

574 

960 

1406 

1890 

2222 

2880 

3341 

3750 

1 



3 

0 

1 

10 

34 

80 

156 

270 

370 

640 

911 

1250 

0 



4 

0 

9606 

8145 

6561 

5220 

4096 

3164 

2401 

1975 

1296 

915 

625 

4 

4 


1 

388 

1715 

2916 

3685 

4096 

4219 

4116 

3951 

3456 

2995 

2500 

3 



2 

6 

135 

486 

975 

1536 

2109 

2646 

2963 

3456 

3675 

3750 

2 



3 

0 

5 

36 

115 

256 

469 

756 

988 

1536 

2005 

2500 

1 



4 

0 

0 

1 

5 

16 

39 

81 

123 

256 

410 

625 

0 



5 

0 

9510 

7738 

5905 

4437 

3277 

2373 

1681 

1317 

778 

503 

312 

5 

5 


1 

480 

2036 

3280 

3915 

4096 

3955 

3602 

3292 

2592 

2059 

1562 

4 



2 

10 

214 

729 

1382 

2048 

2637 

3087 

3292 

3456 

3369 

3125 

3 



3 

0 

11 

81 

244 

512 

879 

1323 

1646 

2304 

2757 

3125 

2 



4 

0 

0 

4 

22 

64 

146 

283 

412 

768 

1128 

1562 

1 



5 

0 

0 

0 

1 

3 

10 

24 

41 

102 

185 

312 

0 



6 

0 

9415 

7351 

5314 

3771 

2621 

1780 

1176 

878 

467 

277 

156 

6 

6 


1 

571 

2321 

3543 

3993 

3932 

3560 

3025 

2634 

1866 

1359 

938 

5 



2 

14 

305 

984 

1762 

2458 

2966 

3241 

3292 

3110 

2780 

2344 

4 



3 

0 

21 

146 

415 

819 

1318 

1852 

2195 

2765 

3032 

3125 

3 



4 

0 

1 

12 

55 

154 

330 

595 

823 

1382 

1861 

2344 

2 



5 

0 

0 

1 

4 

15 

44 

102 

165 

369 

609 

938 

1 



6 

0 

0 

0 

0 

1 

2 

7 

14 

41 

83 

156 

0 



7 

0 

9321 

6983 

4783 

3206 

2097 

1335 

824 

585 

280 

152 

78 

7 

7 


1 

659 

2573 

3720 

3960 

3670 

3115 

2471 

2048 

1306 

872 

547 

6 



2 

20 

406 

1240 

2097 

2753 

3115 

3177 

3073 

2613 

2140 

1641 

5 



3 

0 

36 

230 

617 

1147 

1730 

2269 

2561 

2903 

2918 

2734 

4 



4 

0 

2 

26 

109 

287 

577 

972 

1280 

1935 

2388 

2734 

3 



5 

0 

0 

2 

12 

43 

115 

250 

384 

774 

1172 

1641 

2 



6 

0 

0 

0 

1 

4 

13 

36 

64 

172 

320 

547 

1 



7 

0 

0 

0 

0 

0 

1 

2 

. 5 

16 

37 

78 

0 




0,99 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

2/3 

0,60 

0,55 

0,50 

k 

N 


P 

















































































































Apendice 1155 


Tabela F 2 Distribui<;ao binominal 


Probabilidades unilateral para o teste binominal quando p = q = 1 /2 


k 


0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

17 

4 

062 

312 

688 

938 

1,0 














5 

031 

188 

500 

812 

969 

1,0 













6 

016 

109 

344 

656 

891 

984 

1,0 












7 

008 

062 

227 

500 

773 

938 

992 

1,0 











8 

004 

035 

145 

363 

637 

855 

965 

996 

1,0 










9 

002 

020 

090 

254 

500 

746 

910 

980 

998 

1,0 









10 

001 

011 

055 

172 

377 

623 

828 

945 

989 

999 

1,0 








11 


006 

033 

113 

274 

500 

726 

887 

967 

994 

999+ 

1,0 







12 


003 

019 

073 

194 

387 

613 

806 

927 

981 

997 

999+ 

1,0 






13 


002 

011 

046 

133 

291 

500 

709 

867 

954 

989 

998 

999+ 

1,0 





14 


001 

006 

029 

090 

212 

395 

605 

788 

910 

971 

994 

999+ 

999+ 

1,0 




15 



004 

018 

059 

151 

304 

500 

696 

849 

941 

982 

996 

999+ 

999+ 

1,0 



16 



002 

011 

038 

105 

227 

402 

598 

773 

895 

962 

989 

998 

999+ 

999+ 

1,0 


17 



001 

006 

025 

072 

166 

315 

500 

685 

834 

928 

975 

994 

999 

999+ 

999+ 

1,0 

18 



001 

004 

015 

048 

119 

240 

407 

593 

760 

881 

952 

985 

996 

999 

999+ 

999+ 

19 




002 

010 

032 

084 

180 

324 

500 

676 

820 

916 

968 

990 

998 

999+ 

999+ 

20 




001 

006 

021 

058 

132 

252 

412 

588 

748 

868 

942 

979 

994 

999 

999+ 

21 




001 

004 

013 

039 

095 

192 

332 

500 

668 

808 

905 

961 

987 

996 

999 

22 





002 

008 

026 

067 

143 

262 

416 

584 

738 

857 

933 

974 

992 

998 

23 





001 

005 

017 

047 

105 

202 

339 

500 

661 

798 

895 

953 

983 

995 

24 





001 

003 

011 

032 

076 

154 

271 

419 

581 

729 

846 

924 

968 

989 

25 






002 

007 

022 

054 

115 

212 

345 

500 

655 

788 

885 

946 

978 







001 

005 

014 

038 

084 

163 

279 

423 

577 

721 

837 

916 

962 

27 






001 

003 

010 

026 

061 

124 

221 

351 

500 

649 

779 

876 

939 

28 







002 

006 

018 

044 

092 

172 

286 

425 

575 

714 

828 

908 

29 







001 

004 

012 

031 

068 

132 

229 

356 

500 

644 

771 

868 

30 







001 

003 

008 

021 

049 

100 

181 

292 

428 

572 

708 

819 

31 








002 

005 

015 

035 

075 

141 

237 

360 

500 

640 

763 

32 








001 

004 

010 

025 

055 

108 

189 

298 

430 

570 

702 

33 








001 

002 

007 

018 

040 

081 

148 

243 

364 

500 

636 

34 









001 

005 

012 

029 

061 

115 

196 

304 

432 

568 

35 









001 

003 

008 

020 

045 

088 

155 

250 

368 

500 

Nota: Vfrgulas decimais e valores menores do que 0,0005 foram omitidos. 
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Tabela H 1 Valores criticos da estatistica 1/1/ 
de Shapiro-Wilk tal que P(W cal < 1/1/) = a. 


Tamanho da 

Nivel de significancia a 

amostra N 

0,01 

0,02 

0,05 

0,10 

0,50 

0,90 

0,95 

0,98 

0,99 

3 

0,753 

0,758 

0,767 

0,789 

0,959 

0,998 

0,999 



4 

0,687 

0,707 








5 

0,686 

0,715 








6 

0,713 

0,743 







Bpfffpfj 

7 

0,730 

0,760 








8 

0,749 

0,778 








9 

0,764 

0,791 








10 

0,781 

0,806 








11 

0,792 

0,817 






1 


12 

0,805 

0,828 








13 

0,814 

0,837 


0,889 






14 

0,825 

0,846 








15 

0,835 

0,855 








16 

0,844 

0,863 








17 

0,851 

0,869 








18 

0,858 

0,874 








19 

0,863 

0,879 








20 

0,868 

0,884 








21 

0,873 

0,888 



0,960 





22 

0,878 

0,892 


0,926 

0,961 





23 

0,881 

0,895 

0,914 

0,928 

0,962 

0,981 

0,984 



24 

0,884 

0,898 

0,916 

0,930 

0,963 

0,981 

0,984 



25 

0,888 

0,901 

0,918 

0,931 

0,964 

0,981 

0,985 



26 

0,891 

0,904 

0,920 

0,933 

0,965 

0,982 

0,985 

0,988 


27 

0,894 

0,906 

0,923 

0,935 

0,965 

0,982 

0,985 

0,988 


28 

0,896 

0,908 

0,924 

0,936 

0,966 

0,982 

0,985 

0,988 


29 

0,898 

0,910 

0,926 

0,937 

0,966 

0,982 

0,985 

0,988 


30 

0,900 

0,912 

0,927 

0,939 

0,967 

0,983 

0,985 

0,988 
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Tabela H 2 Coeficientes a jn para o teste de 
normalidade de Shapiro-Wilk. 


i/n 


2 

3 

4 

5 

6 

7 

8 

9 

10 

1 


0,7071 

0,7071 

0,6872 

0,6646 

0,6431 

0,6233 

0,6052 

0,5888 

0,5739 

2 



0,0000 

0,1677 

0,2413 

0,2806 

0,3031 

0,3164 

0,3244 

0,3291 

3 





0,0000 

0,0875 

0,1401 

0,1743 

0,1976 

0,2141 

4 







0,0000 

0,0561 

0,0947 

0,1224 

5 









0,0000 

0,0399 


i/n 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

1 

0,5601 

0,5475 

0,5359 

0,5251 

0,5150 

0,5056 

0,4968 

0,4886 

0,4808 

0,4734 

2 

0,3315 

0,3325 

0,3325 

0,3318 

0,3306 

0,3290 

0,3273 

0,3253 

0,3232 

0,3211 

3 

0,2260 

0,2347 

0,2412 

0,2460 

0,2495 

0,2521 

0,2540 

0,2553 

0,2561 

0,2565 

4 

0,1429 

0,1586 

0,1707 

0,1802 

0,1878 

0,1939 

0,1988 

0,2027 

0,2059 

0,2085 

5 

0,0695 

0,0922 

0,1099 

0,1240 

0,1353 

0,1447 

0,1524 

0,1587 

0,1641 

0,1686 

6 

0,0000 

0,0303 

0,0539 

0,0727 

0,0880 

0,1005 

0,1109 

0,1197 

0,1271 

0,1334 

7 



0,0000 

0,0240 

0,0433 

0,0593 

0,0725 

0,0837 

0,0932 

0,1013 

8 





0,0000 

0,0196 

0,0359 

0,0496 

0,0612 

0,0711 

9 







0,0000 

0,0163 

0,0303 

0,0422 

10 









0,0000 

0,0140 


i/n 

21 

22 

23 

24 

25 

26 

27 

28 

29 

30 

1 

0,4643 

0,4590 

0,4542 

0,4493 

0,4450 

0,4407 

0,4366 

0,4328 

0,4291 

0,4254 

2 

0,3185 

0,3156 

0,3126 

0,3098 

0,3069 

0,3043 

0,3018 

0,2992 

0,2968 

0,2944 

3 

0,2578 

0,2571 

0,2563 

0,2554 

0,2543 

0,2533 

0,2522 

0,2510 

0,2499 

0,2487 

4 

0,2119 

0,2131 

0,2139 

0,2145 

0,2148 

0,2151 

0,2152 

0,2151 

0,2150 

0,2148 

5 

0,1736 

0,1764 

0,1787 

0,1807 

0,1822 

0,1836 

0,1848 

0,1857 

0,1864 

0,1870 

6 

0,1399 

0,1443 

0,1480 

0,1512 

0,1539 

0,1563 

0,1584 

0,1601 

0,1616 

0,1630 

7 

0,1092 

0,1150 

0,1201 

0,1245 

0,1283 

0,1316 

0,1346 

0,1372 

0,1395 

0,1415 

8 

0,0804 

0,0878 

0,0941 

0,0997 

0,1046 

0,1089 

0,1128 

0,1162 

0,1192 

0,1219 

9 

0,0530 

0,0618 

0,0696 

0,0764 

0,0823 

0,0876 

0,0923 

0,0965 

0,1002 

0,1036 

10 

0,0263 

0,0368 

0,0459 

0,0539 

0,0610 

0,0672 

0,0728 

0,0778 

0,0822 

0,0862 

11 

0,0000 

0,0122 

0,0228 

0,0321 

0,0403 

0,0476 

0,0540 

0,0598 

0,0650 

0,0697 

12 



0,0000 

0,0107 

0,0200 

0,0284 

0,0358 

0,0424 

0,0483 

0,0537 

13 





0,0000 

0,0094 

0,0178 

0,0253 

0,0320 

0,0381 

14 







0,0000 

0,0084 

0,0159 

0,0227 

15 









0,0000 

0,0076 
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imm 


0,5171 


0,4829 


0,4492 


0,4155 


0,3823 


0,3501 


0,3188 

0,5151 

0,2886 

0,4849 

0,2598 

0,4548 

0,2324 

0,4250 

0,2065 

0,3955 

0,1826 

0,3667 

0,1602 

0,3386 

0,1392 

0,3110 

0,1201 

0,2847 

0,1030 

0,2593 

0,0874 

0,2349 

0,0737 

0,2119 

0,0615 

0,1902 

0,0508 

0,1697 

0,0415 

0,1506 

0,0337 

0,1331 

0,0269 

0,1167 

0,0210 

0,1018 

0,0161 

0,0881 

0,0122 

0,0757 

0,0093 

0,0647 

0,0068 

0,0549 
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Apendice 


Tabela J Valores crfticos de U c no teste U 
de Mann-Whitney tal que P(U cal < U c ) = a. 


P(U cal <U c ) = 0,05 















































Tabela M Valores criticos da estatistica C de Cochran tal que P(C cal > C c ) = 



144 0,6062 0,4230 0,3251 0,2644 0,2229 0,1929 0,1700 0,1521 0,1376 0,1157 0,0934 0,0709 0,0595 0,0480 0,0363 0,0245 0,0125 

oo 0,5000 0,3333 0,2500 0,2000 0,1667 0,1429 0,1250 0,1111 0,1000 0,0833 0,0667 0,0500 0,0417 0,0333 0,0250 0,0167 0,0083 
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